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(PCT Rule 61.2) 



Date of mailing (day/month/year) 

30 November 1999 (30.11.99) 



To: 



Assistant Commissioner for Patents 
United States Patent and Trademark 
Office 
Box PCT 

Washington, D.C.20231 
ETATS-UNIS D'AMERIQUE 

in its capacity as elected Office 



International application No. 
PCT/DE99/01323 



Applicant's or agent's file reference 
GR 98P1687P 



International filing date (day/month/year) 
03 May 1999 (03.05.99) 



Priority date (day/month/year) 

11 May 1998(11.05.98) 



Applicant 

BUB, Udo etal 



1. The designated Office is hereby notified of its election made: 

| X | in the demand filed with the International Preliminary Examining Authority on: 

02 November 1999 (02.11,99) 



| | in a notice effecting later election filed with the International Bureau on: 



The election 



□ 



was not 



made before the expiration of 19 months from the priority date or, where Rule 32 applies, within the time limit under 
Rule 32.2(b). 



tuu 



to 



The International Bureau of WIPO 


Authorized officer 


34, chemin des Colombettes 


R. Forax 


1211 Geneva 20. Switzerland 


Facsimile No.: (41-22) 740.14.35 


Telephone No.: (41-22) 338.83.38 



Form PCT/IB/331 (July 1992) 



2982492 
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0 

0-1 


Vom Anmeldeamt auszufilllen 

Internationales Aktenzeichen. 




0-2 


Internationales Anmeldedatum 




0-3 


Name des Anmeldeamts und "PCT 
International Application" 




0-4 

0-4-1 


Formular - PCT/RO/101 PCT Antrag 

erstellt durch Benutzung von 


PCT-EASY Version 2.83 
(aktualisiert 01.03.1999) 


0-6 


Antragsersuchen 

Der Unterzeichnete beantragt, da& die 
vorfiegende intemationale Anmeldung 
nach dem Vertrag Qber die Internationale 
Zusammenarbeit auf dem Gebiet des 
Patentwesens behandelt wird 




0-6 


(Vom Anmelder gewahltes) 
Anmeldeamt 


Deutsches Patent- und Markenamt (RO/DE) 


0-7 


Aktenzeichen des Anmelders oder 
Anwatts 


GR 98P1687P 


1 


Bezelchnung der Erfindung 


ANORDNUNG UND VERFAHREN ZUR ERKENNUNG 
EINES VORGEGEBENEN WORTSCHATZES IN 
GESPROCHENER SPRACHE DURCH EINEN RECHNER 


II 

il-1 
II-2 

II-4 
H-5 

lt-6 
H-7 
tl-6 
1 1 -9 


Anmelder 

Diese Person ist 

Anmelder fOr 

Name 
Anschritt: 

Staatsangeh6rigkeit (Staat) 
Sttz/Wohnsitz (Staat) 
Telefonnr. 
Telefaxnr. 


nur Anmelder 

Alle Bestimmungstaaten mit Ausnahme von 
US 

SIEMENS AKTIENGESELLSCHAFT 

Wittelsbacherplatz 2 

D-80333 Munchen 

Germany 

DE 

DE 

(089) 636-82819 
(089) 636-81857 


111-1 

llt-1-1 

1 1 1-1 -2 
II1-1-4 
IIM-5 

111-1-6 
111-1-7 


Anmelder und/oder Erfinder 

Diese Person ist 
Anmelder fOr 

Name (FAMILIENNAME, Vomame) 
Anschritt: 

Staatsangehorigkett (Staat) 
Sitz/Wohnsitz (Staat) 


Anmelder und Erfinder 

Nur US 

BUB, Udo 

Klarweinstr. 18 

D-81247 Munchen 

Germany 

DE 

DE 
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2/4 



Original (fur EINREICHUNG) - gedruckt am 09.04.1 999 01 :23:04 PM 



GR98P1687P 



111-2 

111-2-1 

UI-2-2 
lil-2-4 
III-2-5 



III-2-6 
III-2-7 



Anmelder und/oder Erfinder 

Diese Person ist 

Anmelder for 

Name (FAMILIENNAME, Vomame) 
Anschrift: 



Staatsangehongkeit (Staat) 
Sttz/Wohnsrtz (Staat) 



Anmelder und Erfinder 

Nur US 

HOGE, Harald 

Obertaxetweg 6B 

D-82131 Gauting 

Germany 

DE 

DE 



IV-1 



IV-1-1 
IV-1 -2 



IV-1 -3 
IV-1 -4 



Anwalt Oder gemeinsamer Vertreter; 
oder besondere Zustellanschrift 
Die unten bezeichnete Person Ist/wird 
hiermit bestelR, urn den (die) Anmelder vor 
den tnternationalen Behorden zu vertreten, 
und zwar als: 
Name 

Anschrift: 



Telefonnr. 
Telefaxnr. 



gemeinsamer Vertreter 



SIEMENS AKT I E NGE SE LLSCHAFT 
Postfach 22 16 34 
D-80506 Munchen 
Germany 

(089) 636-82819 
(089) 636-81857 



v 

V-1 



Bestimtnung von Staaten 



Regionales Patent 
(andere Schutzrechtsarten oder Verfahren 
sind ggf. in Wammem nach der (den) 
betreffenden Bestimmung(en) angegeben) 



EP: AT BE CH&LI CY DE DK ES FI FR GB GR 
IE IT LU MC NL PT SE und jeder weitere 
Staat/ der Mi tgliedss taat des 
Europaischen Patentubereinkommens und 
Vertragsstaat des PCT ist 



V-2 



Nationales Patent 

(andere Schutzrechtsarten oder Verfahren 
sind ggf. in Wammem nach der (den) 
betreffenden Bestimmung(en) angegeben) 



US 



V-6 



Erklarung bzgl. vorsorglicher 
Bestimmungen 

Zusatzlich zu den unter Punkt V-1 , V-2 
and V-3 vorgenommenen Bestimmungen 
nimmt der Anmelder nach Regei 4.9 
Absatz b auch alle anderen nach dem 
PCT zuiassigen Bestimmungen vor mtt 
Ausnahme der nachstehend unter Punkt 
V-6 angegebenen Staaten. Der Anmelder 
erwart, dafi diese zusdtziichen 
Bestimmungen unter dem Vorbehatt einer 
Bestatigung stehen und jede zusatzliche 
Bestimmung, die vor Ablauf von 15 
Monaten ab dem Prioritatsdatum nicht 
bestatigt wurde, nach Ablauf dieser Frist 
ate vom Anmelder zurQckgenommen gilt. 



V-6 



Staaten, die von der Erklarung Uber 
vorsorgliche Bestimmungen 
ausgenommen werden 



KEINE 



PCT ANTRAG 
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VI-1 

VM-1 
VI-1 -2 
VI-1 -3 


Prioritfit einer frUheren natlonalen 
Anmeldung beansprucht 
Anmeldedatum 

Aktenzelchen 

Staat 


11 Mai 1998 (11.05.1998) 

198 21 057.4 

DE 


VI-2 


Ersuchen urn Erstellung eines 
Priorittttsbeleges 

Hm Anmsktaamt wind sr&ucht sin A 

begtaubigte Abschrift der In der (den) 
nachstehend genannten Zeile(n) 
bezeichneten frOheren Anmeldung(en) zu 
ersteJIen und dem Intemationalen BQro zu 
Obermitteln: 


VI-1 


VII-1 


GewShtte Internationale 
Recherchenbehdrde 


Europaisches Pa ten taunt (EPA) (ISA/EP) 


VIII 


Kontrolliste 


Anzahl der Blatter 


Elektronische Datei(en) beigefQgt 


VIII-1 


Antrag 


4 




VII I-2 


Beschrelbung 


14 




VIII-3 


AnsprQche 


3 




VIII-4 


Zusammenfassung 


1 


98 p 1687 p de.txt 


VIII-5 


Zeichnung(en) 


1 




Vlll-7 


INSGESAMT 


23 




BeigefUgte Unteriagen 


Unterlage(n) in Papierform beigefQgt 


Elektronische Oatei(en) beigefQgt 


VIII-8 


Blatt fQr die GebQhrenberechnung 






VIII-16 


PCT-EASY-Diskette 




Diskette 


Vlll-17 


Sonstige (einzeln aufgefOhrt): 


Kopie der 
Ursprungsf assung 




VIII-18 


Nr. der add. der zetcnn., uie mix aer 
Zusarnrrtenf. verttffentllcht werden soli 


1 


VIIM9 


Sprache der int Anmeldung 


Deutsch 


IX-1 
IX-1-1 

IV 1 o 
IA-1 

IX-1 -3 


Unterschrlft des Anmelders oder 
Anwalts 

Name 

Klamo Har ■ intoryoirhnonHAit PArcnn 
(NalTlB UCi unicf£cicrinciiucfi rci aui 1 

Eigenschatt 


SIEMENS AKTIENGESELLSCHAFT 
Hashuber 

Nr. 144/74 Ang-AV 


IX-2 


Unterschrlft des Anmelders oder 
Anwalts 






IX-2-1 


Name 


SIEMENS AKTIENGESELLSCHAFT 


IX-3 


Unterschrlft des Anmelders oder 
Anwalts 






IX-3-1 


Name (FAMILIENNAME, Vorname) 


BUB, Udo 




IX-* 


Unterschrlft des Anmelders oder 
Anwalts 






IX-4-1 


Name (FAMILIENNAME, Vorname) 


HOGE , Harald 
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VOM ANMELDEAMT AUSZUFULLEN 



10-1 


Datum des tatsftchlichen Eingangs 
dleser intemationalen Anmeldung 




10-2 

10-2-2 


Zeichnung(en): 

Pinnpmnnpn 

Nicht eingegangen 




10-3 


Geandertes Eingangsdatum aufgrund 
nachtr&glich, jedoch fristgerecht 
eingeg. Unterlage(n) oder 
Zeichnung(en) zur Vervollstandigung 
dieser int Anmeldung 




10-4 


Datum des fristgerechten Eingangs 
der Berlchtigung nach PCT Artikel 
1K2) 




10-6 


Internationale Recherchenbehdrde 


ISA/EP 


10-6 


Ubermittiung des 

Recherchenexemplars bis zur Zahlung 
der RecherchengebUhr aufgeschoben 




VOM INTERNATIONALEN BURO AUSZUFULLEN 


11-1 


Datum des Eingangs des 
Aktenexemplars beim Intemationalen 
BUro 
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(Dieses Blatt 1st nlcht Teil und zahtt nicht als Blatt der Intemationalen Anmeldung) 



0 


Vom Anmeldeamt auszufUllen 




0-1 


Internationales Aktenzeichen. 




0-2 


Eingangsstempel des Anmeldeamts 





0-4-1 


Formular - PCT/RO/101 (Anlage) 
PCT Blatt Mr die 
Geblihrenberechnung 
erstellt durch Benutzung von 


PCT-EASY Version 2,83 
(aktualisiert 01. 03 ,1999) 


0-9 


Aktenzeichen des Anmelders oder 
Anwatts 


GR 


98P1687P 




2 


Anmelder 


SIEMENS AKTIENGESELLSCHAFT, 


et al. 


12 


Berechnung der vorgeschriebenen 
GebUhren 


H6he der 
GebOhr/Murtiplikator 


Gesamtbetrage (DEM) 




12-1 


U bermlttlungsgebOhr 


T 


«=> 


150 




12-2 


RecherchengebQhr 


S 


o 


2.198,35 




12-3 


Internationale GebQhr 
GrundgebUhr 
(erste 30 Blatter) 


b1 


800 




12-4 


Remaining sheets 


0 




12-5 


ZusatzblattgebQhr 


(X) 


19 




12-6 


Gesamtbetrag der weiteren 
GebQhren 


b2 


0 




12-7 


b1 + b2 = 


B 


800 




12-8 


BestimmungsgebOhren 
Anzahl der in der intemationalen 
Anmeldung vorgenommenen 
Bestimmungen 


2 




12-9 


Anzahl der zu zahlenden 
BestimmungsgebOhren (hdchstens 
10) 


2 




12-10 


BestimmungsgebQhr 


(X) 


184 




12-11 


Gesamtbetrag der 
BestimmungsgebOhren 


D 


368 




12-12 


PCT-EASY-GebUhrenerrnaGigun 


R 


-246 




12-13 


Gesamtbetrag der intemationalen 
GebQhr (B+D+R) 


I 




922 




12-14 


GebQhr fQr Prioritatsbeleg 
Anzahl der beantragten 
Prioritatsbelege 


1 




12-15 


GebQhr per Prioritatsbeleg 


W 


35 




12-16 


Gesamtbetrag GebQhr fQr 
Prioritatsbeleg(e) 


P 




35 




12-17 


GESAMTBETRAG DER ZU 
ZAHLENDEN GEBUHREN (T+S+l+P) 




3.305,35 




12-19 


Zahlungsart 


Sonstige: Abbuchung durch gesonderte 
Zahlungsliste 
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12-20 


Anweisungen bctreffend laufendes 
Konto 

Das Anmetdeamt: 


Deutsches Patent- und Markenamt (RO/DE) 


12-20-2 


wird beauftragt, FehlbetnSge oder 
Uberzahlungen des vorstehend 
angegebenen Gesamtbetrags der 
GebQhren meinem laufenden Konto zu 
betasten bzw. gutzuschreiben 


V 


12-21 


Nummer des laufenden Kontos 


409022601 


12-22 


Datum 


09 April 1999 (09.04.1999) 


12-23 


Name und Unterschrift 


SIEMENS AKT I ENGE SE LLS CHAFT 

j (/- ^^lu^^cy 


PRUFPROTOKOLL UND BEMERKUNGEN 


13-2-1 


Prtifergebnisse 
Antrag 


Griin? 

Die Bezeichnung der Erfindung mufi kurz 
und genau gefafit sein. Bitte uberprufen. 


13-2-2 


Prtifergebnisse 
Staaten 


Griin? 

Es konnen mehr Bestimmungen vorgenommen 
werden . Bitte Uberprufen. 



VERTRAG UBEF^E INTERNATIONALE ZUS 

WGEEllET DES PATENTWE 

PCT 



ENARBEIT AUF DEM 
S | ' . 



INTERNATIONALER VORLAUFIGER PRUFUNGSBEftlHCHT- 

(Artikel 36 und Regel 70 PCT) 



Aktenzeichen des Anmelders Oder Anwalts 
GR 98P1687P 


siehe Mitteilung uber die Ubersendung des internationalen 
WEITERES VORGEHEN vorlaufigen Prufungsbericht (Formblatt PCT/IPEA/416) 


Internationales Aktenzeichen 
PCT/DE99/01323 


I nternationales Anmeldedatum (Tag/Monat/Jahr) 
03/05/1999 


Prioritatsdatum (Tag/Monat/Tag) 
11/05/1998 



Internationale Patentklassiftcation (IPK) Oder nationale Klassifikation und IPK 
G10L5/06 



Anmelder 

SIEMENS AKTI ENG ES ELLSCH AFT et al. 



1 . Dieser Internationale vorlaufige Prufungsbericht wurde von der mit der internationale vorlaufigen Prufung beauftragte 
Behorde erstellt und wird dem Anmelder gerna3 Artikel 36 ubermittelt. 



2. Dieser BERICHT umfaGt insgesamt 4 Blatter einschlie(3lich dieses Deckblatts. 

S AuBerdem liegen dem Bericht ANLAGEN bei; dabei handelt es sich um Blatter mit Beschreibungen, Anspruchen 
und/oder Zeichnungen, die geandert wurden und diesem Bericht zugrunde liegen, und/oder Blatter mit vor dieser 
Behorde vorgenommenen Berichtigungen (siehe Regel 70.16 und Abschnitt 607 der Verwaltungsrichtlinien zum PCT). 

Diese Anlagen umfassen insgesamt 6 Blatter. 



Dieser Bericht enthalt Angaben zu folgenden Punkten: 
t H Grundlage des Berichts 



Keine Erstellung eines Gutachtens uber Neuheit, erfinderische Tatigkeit und gewerbliche Anwendbarkeit 
Mangelnde Einheitlichkeit der Erfindung 

Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderische Tatigkeit und der 
gewerbliche Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 



II 


□ 


III 


□ 


IV 


□ 


V 




VI 


□ 


VII 


□ 


VIII 


□ 



Datum der Einreichung des Antrags 
02/11/1999 


Datum der Fertigstellung dieses Berichts 
09.08.2000 


Name und Postanschrift der mit der internationalen vorlaufigen 
Prufung beauftragten Behorde: 

^ Europaisches Patentamt 
mft D-80298 Munchen 

Tel. +49 89 2399 - 0 Tx: 523656 epmu d 
Fax: +49 89 2399 - 4465 


Bevollmachtigter Bediensteter ><lS£5*>\ 
Greiser, N U }} 

Tel. Nr. +49 89 2399 7402 



Formblatt PCT/IPEA/409 (Deckblatt) (Januar 1994) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE99/01 323 



I. Grundlage des Bertchts 

1 . Dieser Bericht wurde erstellt auf der Grundlage (Ersatzblatter, die dem Anmeldeamt auf eine Aufforderung nach 
Artikel 14 hin vorgelegt warden, gelten im Rahmen dieses Berichts ais "ursprunglich eingereicht" und sind ihm 
nicht beigefugt, weil sie keine Anderungen enthalten.): 

Beschreibung, Serten: 

1-3,5-14 ursprungliche Fassung 

4,4a eingegangen am 07/07/2000 mit Schreiben vom 03/07/2000 

Patentanspruche, Nr.: 

1 -8 eingegangen am 07/07/2000 mit Schreiben vom 03/07/2000 

Zeichnungen, Blatter: 

1/1 ursprungliche Fassung 

2. Aufgrund der Anderungen sind folgende Unterlagen fortgefallen: 

□ Beschreibung, Seiten: 

□ Anspruche, Nr.: 

□ Zeichnungen , Blatt: 

3. □ Dieser Bericht ist ohne Berucksichtigung (von einigen) der Anderungen ersteltt worden, da diese aus den 

angegebenen Grunden nach Auffassung der Behorde uber den Offenbarungsgehalt in der ursprunglich 
eingereichten Fassung hinausgehen (Regel 70.2(c)): 

4. Etwaige zusatzliche Bemerkungen: 



Formblatt PCT/IPEA/409 (Felder I- VIII. Blatt 1) (Januar 1994) 



INTERNATIONALER VORLAUFIGER 
PRUFUNGSBERICHT 



Internationales Aktenzeichen PCT/DE99/01 323 



V. Begrundete Feststellung nach Artikel 35(2) hinsichtlich der Neuheit, der erfinderischen Tatigkeit und der 
gewerblichen Anwendbarkeit; Unterlagen und Erklarungen zur Stutzung dieser Feststellung 

1. Feststellung 

Neuheit (N) Ja: Anspruche t -8 

Nein: Anspruche 

Erfinderische Tatigkeit (ET) Ja: Anspruche 1 -8 

Nein: Anspruche 

Gewerbliche Anwendbarkeit (GA) Ja: Anspruche 1 -8 

Nein: Anspruche 



2. Unterlagen und Erklarungen 
siehe Beiblatt 



Formblatt PCT/IPEA/409 (Felder l-VIII. Blatt2) (Januar 1994) 



INTERN ATIONALER VORLAUFIGER Internationales Aktenzeichen PCT/DE99/01 323 
PRUFUNGSBERICHT - BEIBLATT 



zu Punkt V: 

1 . Die Erfindung betrifft ein Verfahren zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache durch einen Rechner. 

Das Dokument D1= TAKAMI ET AL: 'A successive state splitting algorithm for 
efficient allophone modeling 1 INTERNATIONAL CONFERENCE ON ACOUSTICS, 
SPEECH AND SIGNAL PROCESSING (ICASSP) 1992, Bd. 1, 23. - 26. Marz 
1992, Seiten 573-576, SAN FRANCISCO (USA) (= nachster Stand der Technik) 
offenbart ein Verfahren zur Spracherkennung, bei dem in einem Markov-Modell 
Zustande aufgespalten werden, sodaB die Wahrscheinlichkeitsdichtefunktionen 
der jeweiligen Zustande ebenfalls aufgespalten sind. Die Erfinder erkennen die 
technische Aufgabe, da3 im Rahmen einer Sprecheradaption ein 
Spracherkennungsverfahren nach dem Stand der Technik zu einer verminderten 
Gute fuhren kann. Zur Losung der technischen Aufgabe schlagen die Erfinder vor, 
ein statistisches Kriterium einzufuhren, anhand dessen entschieden wird, ob der 
zu erkennende Wortschatz durch das Hinzufugen weiterer Zustande verbessert 
modelliert werden kann; bei Erfullung des statistischen Kriteriums werden bereits 
existierende Zustande aufgespalten. 

Der Gegenstand des Anspruchs 1 ist neu. Da die Losung der technischen 
Aufgabe nicht naheliegend ist, beinhaltet Anspruch 1 ebenfalls einen 
erfinderischen Schritt. 

2. Der Anspruch 7 beansprucht eine Anordnung zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache mit einer Prozessoreinheit. Da 
Vorrichtungsanspruch 7 dem Verfahrensanspruch 1 entspricht, ist Anspruch 7 
ebenfalls neu und erfinderisch. 

Bemerkungen: 

3. Aufgrund der PCT-Verfahrensprozedur erscheinen die geanderten 
Vorrichtungsanspruche 2 und 8 das Kriterium der Einheitlichkeit der Erfindung 
nicht zu erfullen (Regel 13 PCT). Die "Veranderung des Wortschatzes zur Laufzeit 
des Verfahrens" wird als ein "besonderes technisches Merkmal" gewertet, das zu 
einer zweiten erfinderischen Idee fuhrt. 



Fonmblatt PCT/Beiblatt/409 (Blatt 1) (EPA- April 1997) 



Sprecheradaption durch eine MAP-Schatzung der Hidden-Markov- 
Model 1- Parameter durchgef uhrt . 

Generell verschlechtern sich Ergebnisse eines Verfahrens zur 
5 Erkennung gesprochener Sprache, sobald charakteristische 
Merkmale der gesprochenen Sprache von charakteristischen 
Merkmalen der Trainingsdaten abweichen. Beispiele fur 
charakteristische Merkmale sind Sprechereigenschaf ten oder 
akustische Kontexte, die sich in Form von Verschleif ungen auf 
10 die Artikulation der Phoneme auswirken. 

Der in [2] verfolgte Ansatz zur Sprecheradaption besteht 
darin, Parameterwerte der Hidden-Markov-Modelle 
"nachzuschatzen" , wobei diese riach Verarbeitung "offline", 
15 d.h. nicht zur Laufzeit des Verfahrens zur Spracherkennung, 
dur chge f uhr t wi r d . 

In J. Takami et al . "Successive State Splitting Algorithm for 
Efficient Allophone Modeling" , ICASSP 1992, Marz 1992, Seiten 

20 573 bis 576, San Francisco, USA, wird ein Verfahren zur 

Erkennung eines vorgegebenen Wortschatzes in gesprochener 
Sprache offenbart, bei dem in einem Hidden-Markov-Modell 
Zustande aufgespalten werden. Dafur wird auch die 
Wahrscheinlichkeitsdichtefunktion der jeweiligen Zustande 

25 aufgespalten. 

Die Aufgabe der Erfindung besteht darin, eine Anordnung und 
ein Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache anzugeben, wobei insbesondere eine 
30 Anpassung des akustischen Modells zur Laufzeit (also 
"Online") vollzogen wird. 

Diese Aufgabe wird gemaS den Merkmalen der unabhangigen 
Patentanspruche gelost. 

35 

Zur Losung der Aufgabe wird ein Verfahren zur Erkennung eines 
vorgegebenen Wortschatzes in gesprochener Sprache durch einen 
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PCT/DE 99/013 
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4a 



Rechner angegeben, in dem aus der gesprochenen Sprache ein 
Sprachsignal bestimmt wird. Das Sprachsignal wird einer 
Signalanalyse unterworfen, woraus Merlcmalsvektoren zur 
Beschreibung des digitalisierten Sprachsignals hervorgehen. 
5 Eine globale Suche wird zur Abbildung der Merlcmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 
durchgef uhrt , wobei jedes Phonem der Sprache durch ein 
rnodif iziertes Hidden-Markov-Modell und jeder Zustand des 
modif izierten Hidden-Markov-Modells durch eine 



Patentanspruche 



1. Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache durch einen Rechner, 

5 a) bei dem aus der gesprochenen Sprache ein 

digitalisiertes Sprachsignal bestimmt wird, 

b) bei dem auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchgefuhrt wird, woraus 
Merkmalsvektoren zur Beschreibung des digitalisierten 

10 Sprachsignals hervorgehen, 

c) bei dem eine globale Suche zur Abbildung der 
Merkmalsvektoren auf eine in modellierter Form 
vorliegende Sprache durchgefuhrt wird, wobei Phoneme 
der Sprache durch ein modif iziertes Hidden-Markov - 

!5 Modell und jeder Zustand des Hidden-Markov-Modells 

durch eine Wahrscheinlichkeitsdichtef unktion 
beschrieben wird, 

d) bei dem die Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepaSt wird, indem die 

2 0 Wahrscheinlichkeitsdichtef unktion in eine erste 

Wahrscheinlichkeitsdichtefunktion und in eine zweite 
Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 
falls der Abfall eines Entropiewertes unterhalb einer 
vorgegebenen Schranke liegt, 
25 e ) b «i dem von der globalen Suche eine erkannte Wortfolge 

bereitgestellt wird. 

2, Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache durch einen Rechner, insbesondere 

3 0 nach Anspruch 1, 

a) bei dem aus der gesprochenen Sprache ein 
digitalisiertes Sprachsignal bestimmt wird, 

b) bei dem auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchgefuhrt wird, woraus 

35 Merkmalsvektoren zur Beschreibung des digitalisierten 

Sprachsignals hervorgehen, 
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c) bei dem eine globale Suche zur Abbildung der 
Merkmalsvektoren auf eine in modellierter Form 
vorliegende Sprache durchgefuhrt wird, wobei Phoneme 
der Sprache durch ein modif iziertes Hidden-Markov - 
Modell und jeder Zustand des Hidden-Markov-Modells 
durch eine Wahrscheinlichkeitsdichtef unktion 
beschrieben wird, 

d) bei dem die Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepafit wird, indem die 
Wahrscheinlichkeitsdichtefunktion in eine erste 
Wahrscheinlichkeitsdichtefunktion und in eine zweite 
Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 

e) bei dem die Veranderung des Wortschatzes zur Laufzeit 
des Verfahrens durchgef uhrt wird, 

f ) bei dem von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 

Verfahren nach Anspruch 1 oder 2, 

bei dem die Veranderung des Wortschatzes bedingt ist 
durch Hinzufugen eines Wortes zum Wortschatz oder bei dem 
sich Aussprachegewohnheiten eines Sprechers andern. 

Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die erste Wahrscheinlichkeitsdichtef unktion und 
die zweite Wahrscheinlichkeitsdichtef unktion jeweils 
mindestens eine GauSverteilung umfassen. 

Verfahren nach Anspruch 4 , 

bei dem fur die erste Wahrscheinlichkeitsdichtef unktion 
und fur die zweite Wahrscheinlichkeitsdichtef unktion 
gleiche Standardabweichungen, ein erster Mittelwert der 
ersten Wahrscheinlichkeitsdichtef unktion und ein zweiter 
Mittelwert der zweiten Wahrscheinlichkeitsdichtef unktion 
ermittelt werden, wobei der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist . 
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6. Verfahren nach einem der vorhergehenden Anspruche, 
bei detn die Aufspaltung mehrfach durchgefuhrt wird. 

7. Anordnung zur Erkennung eines vorgegebenen Wortschatzes 
5 in gesprochener Sprache mit einer Prozessoreinheit , die 

derart eingerichtet ist, daS 

a) aus der gesprochenen Sprache ein digitalisiertes 
Sprachsignal bestimmbar ist, 

b) auf dem digitalisierten Sprachsignal eine 
10 Signalanalyse durchfuhrbar ist, woraus 

Merkmalsvektoren zur Beschreibung des digitalisierten 
Sprachsignals hervorgehen, 

c) eine globale Suche zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 

15 erfolgt, wobei Phoneme der Sprache durch ein 

modif iziertes Hidden-Markov-Mode 11 und jeder Zustand 
des Hidden-Markov-Modells durch eine 
Wahrscheinlichkeitsdichtefunktion beschreibbar ist, 

d) die Wahrscheinlichkeitsdichtef unktion durch 

20 Veranderung des Wortschatzes angepaSt wird, indem die 

Wahrscheinlichkeitsdichtef unktion in eine erste 
Wahrscheinlichkeitsdichtef unktion und in eine zweite 
Wahrscheinlichkeitsdichtef unktion aufgespalten wird, 
falls der Abfall eines Entropiewertes unterhalb einer 

25 vorgegebenen Schranke liegt, 

e) von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 
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8. Anordnung zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache mit einer Prozessoreinheit, die 
derart eingerichtet ist, daS 

a) aus der gesprochenen Sprache ein digitalisiertes 
Sprachsignal bestimmbar ist, 

b) auf dem digitalisierten Sprachsignal eine 
3 5 Signalanalyse durchfuhrbar ist, woraus 

Merkmalsvektoren zur Beschreibung des digitalisierten 
Spr achs igna 1 s hervorgehen , 



geAndertes blah 
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c) eine globale Suche zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 
erfolgt, wobei Phoneme der Sprache durch ein 

modif iziertes Hidden -Markov -Mode 11 und jeder Zustand 
5 des Hidden-Markov- Mode lis durch eine 

Wahrscheinlichkeitsdichtefunktion beschreibbar ist , 

d) die Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepaSt wird, indem die 
Wahrscheinlichkeitsdichtef unktion in eine erste 

10 Wahrscheinlichkeitsdichtefunktion und in eine zweite 

Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 

e) die Veranderung des Wortschatzes zur Laufzeit des 
Verfahrens durchgefuhrt wird, 

f) von der globalen Suche eine erkannte Wortfolge 
15 bereitgestellt wird. 
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I | the description, pages 

1 I the claims, Nos. 



I I the drawings, sheets/fig 
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' — ' to go beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)). 
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Inventive step (IS) 
Industrial applicability (I A) 
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Claims 

Claims 
Claims 

Claims 
Claims 
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Citations and explanations 

1. The invention concerns a method for computer 

recognition of a predefined vocabulary in spoken 
language. 



Document Dl, TAKAMI ET AL. : y A successive state 
splitting algorithm for efficient allophone 
modelling', INTERNATIONAL CONFERENCE ON ACOUSTICS, 
SPEECH AND SIGNAL PROCESSING (ICASSP), 1992, Vol. 1, 
23-26 March 1992, pages 573-576, SAN FRANCISCO 
(USA) , considered the closest prior art, discloses a 
method for voice recognition in which, in a Markov 
model, states are split such that the probability 
density functions of the individual states are 
likewise split. The inventors identify the technical 
problem that, in the context of speaker adaptation, 
a voice recognition method according to the prior 
art can lead to a reduction in quality. To solve the 
technical problem, the inventors propose that a 
statistical criterion be introduced on the basis of 
which it is decided whether the modelling of the 
vocabulary for recognition can be improved by the 
addition of further states; when the statistical 
criterion is satisfied, already existing states are 
split . 
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The subject matter of Claim 1 is novel. Since the 


solution of the technical problem 


is not obvious, 


Claim 1 also involves an inventive 


step . 


2. Claim 7 concerns a device for recognising a 


predefined vocabulary in spoken language using a 


processor unit. Since device Claim 


7 corresponds to 


method Claim 1, Claim 7 is also novel and inventive. 


Comments : 




3. In the PCT proceedings, the amended device Claims 2 


and 8 do not appear to satisfy the 


criterion of 


unity of invention (PCT Rule 13) . "Altering the 


vocabulary during the method" is deemed a M special 


technical feature" , which leads to 


a second 


inventive concept . 
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According to [2], thus, it is recognized that a speaker-dependent system for speech 
recognition normally supplies better results than a speaker-independent system, 
insofar as adequate training data are available that enable a modelling of the speaker- 
dependent system. However, the speaker-independent system achieves the better 
5 results as soon as the set of speaker-specific training data is limited. One possibility 
for performance enhancement of both systems, i.e. of both the speaker-dependent as 
well as the speaker-independent system for speech recognition, is comprised in 
employing previously stored datasets of a plurality of speakers such that a small set of 
training data also suffices for modelling a new speaker with adequate quality. Such a 

10 training method is called speaker adaptation. In [2], the speaker adaptation is 

particularly implemented by a MAP estimate of the hidden Markov model parameters. 

Results of a method for recognizing spoken language generally deteriorate 
as soon as characteristic features of the spoken language deviate from characteristic 
features of the training data. Examples of characteristic features are speaker qualities 

15 or acoustic features that influence the articulation of the phonemes in the form of 
slurring. 

The approach embarked upon in [2] for speaker adaptation is comprised in 
"post-estimating"parameter values of the hidden Markov models, whereby this 
processing in implemented "offline", i.e. not at the run time of the method for speech 
2 0 recognition. 

The object of the invention is comprised is specifying an arrangement and 
a method for recognizing a predetermined vocabulary in spoken language, whereby, 
in particular, an adaptation of the acoustic model is accomplished at the run time (i.e., 
"online"). 

2 5 This object is achieved according to the features of the independent patent 

claims. 

For achieving the object, a method for recognizing a predetermined 
vocabulary in spoken language with a computer is recited wherein a voice signal is 
determined from the spoken language. The voice signal is subjected to a signal 

3 0 analysis from which feature vectors for describing the digitalized voice signal 

proceed. A global search is implemented for imaging the feature vectors onto a 



12 



Patent Claims 

1 . Method for recognizing a predetermined vocabulary in spoken language 
with a computer, 

a) whereby a digitalized voice signal is determined from the spoken 
5 * language; 

b) whereby a signal analysis is implemented on the digitalized voice signal, 
feature vectors for describing the digitalized voice signal proceeding 
therefrom; 

c) whereby a global search ensues for imaging the feature vectors onto a 
1 0 language present in modelled form, whereby phoneme [sic] of the 

language can be described by a modified hidden Markov model and each 
status of the hidden Markov model can be described by a probability 
density function; 

d) whereby the probability density function is adapted by modification of the 
15 vocabulary in that the probability density function is split into a first 

probability density function and into a second probability density function; 

e) whereby the global search offers a recognized word sequence. 

2. Method according to claim 1, whereby the probability density function 
is split into the first and into the second probability density function if the drop of an 

2 0 entropy value lies below a predetermined threshold. 

3. Method according to claim 1 or 2, whereby the modification of the 
vocabulary is implemented at the run time of the method. 

4. Method according to one of the preceding claims, whereby the 
modification of the vocabulary is caused by the addition of a word to the vocabulary 

2 5 or whereby pronunciation habits of a speaker change. 

5. Method according to one of the preceding claims, whereby the first 
probability density function and the second probability density function respectively 
comprise at least one Gaussian distribution. 

6. Method according to claim 5, whereby identical standard deviations, a 

3 0 first average of the first probability density function and a second average of the 

second probability density function are determined for the first probability density 
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function and for the second probability density function, whereby the first average 
differs from the second average. 

7. Method according to one of the preceding claims, whereby the splitting 
is multiply implemented. 

8. Arrangement for recognizing a predetermined vocabulary in spoken 
language comprising a processor unit that is configured such that 

a) a digitalized voice signal can be determined from the spoken language; 

b) a signal analysis can be implemented on the digitalized voice signal, 
feature vectors for describing the digitalized voice signal proceeding 
therefrom; 

c) a global search ensues for imaging the feature vectors onto a language 
present in modelled form, whereby phoneme [sic] of the language can be 
described by a modified hidden Markov model and each status of the 
hidden Markov model can be described by a probability density function; 

d) the probability density function is adapted by modification of the 
vocabulary in that the probability density function is split into a first 
probability density function and into a second probability density function; 

e) the global search offers a recognized word sequence. 
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Beschreibung 

Anordnung und Verfahren zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache durch einen Rechner 

5 

Die Erfindung betrifft eine Anordnung und ein Verfahren zur 
Erkennung eines vorgegebenen Wortschatzes in gesprochener 
Sprache durch einen Rechner. 

10 Ein Verfahren und eine Anordnung zur Erkennung gesprochener 
Sprache sind aus [1] bekannt. Bei der Erkennung gesprochener 
Sprache werden, insbesondere bis zum Erhalt einer erkannten 
Wortfolge aus einem digitalisierten Sprachsignal , eine 
Signalanalyse und eine globale Suche, die auf ein akustisches 

15 Modell und ein linguistisches Modell der zu erkennenden 

Sprache zurtickgreif t , durchgef iihrt . Ein akustisches Modell 
basiert auf einem Phoneminventar, das anhand von Hidden- 
Markov-Modellen (HMMs) realisiert ist. Wahrend der globalen 
Suche werden fur Merkmalsvektoren, die aus der Signalanalyse 

20 hervorgegangen sind, mit Hilfe des akustischen Modells eine 

passende Wortfolge ermittelt und diese als erkannte Wortfolge 
ausgegeben. Die zu erkennenden Worter sind in einem 
Aussprachelexikon zusammen mit einer phonetischen Umschrift 
abgespeichert . Der Zusammenhang ist ausfiihrlich in [1] 

25 dargestellt. 

Zur Erlauterung der nachf olgenden Ausfuhrungen wird an dieser 
Stelle kurz auf die verwendeten Begriffe eingegangen. 

30 Die Signalanalyse als Phase der computerbasierten 
Spracherkennung umfaflt insbesondere eine 

Fouriertransf ormation des digitalisierten Sprachsignals und 
eine sich daran anschliefiende Merkmalsextraktion . Aus [1] 
geht hervor, dafl die Signalanalyse alle zehn Millisekunden 
35 erfolgt. Aus sich uberlappenden Zeitabschnitten mit einer 
Dauer von z.B. jeweils 25 Millisekunden werden anhand der 
Signalanalyse ungefahr 30 Merkmale ermittelt und zu einem 
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Merkmalsvektor zusammengef afit . Die Komponenten des 
Merkmalsvektors beschreiben die spektrale Energieverteilung 
des zugehorigen Signalausschnitts . Urn diese Energieverteilung 
zu erhalten, wird auf jedem Signalabschnitt . (25ms- 
5 Zeitabschnitt) eine Fouriertransf ormation durchgef iihrt . Aus 
der Darstellung des Signals im Frequenzbereich resultieren 
die Komponenten des Merkmalsvektors, Nach der Signalanalyse 
liegt das digitalisierte Sprachsignal in Form von 
Merkmalsvektoren vor. 

10 

Diese Merkmalsvektoren werden der globalen Suche , einer 
weiteren Phase der Spracherkennung, zugef iihrt. Wie bereits 
erwahnt, bedient sich die globale Suche des akustischen 
Modells und ggf- des linguistischen Modells, um die Folge von 

15 Merkmalsvektoren auf Einzelteile der als Modell vorliegenden 
Sprache (Vokabular) abzubilden. Eine Sprache setzt sich aus 
einer vorgegebenen Anzahl vom Lauten, sog. Phonemen, 
zusammen, deren Gesamtheit als Phoneminventar bezeichnet 
wird. Das Vokabular wird durch Phonemfolgen modelliert und in 

20 einem Aussprachelexikon abgespeichert . Jedes Phonem wird 
durch mindestens ein HMM modelliert. Mehrere HMMs ergeben 
einen stochastischen Automaten, der Zustande und 
Zustandsubergange (Transitionen) umfafit. Mit HMMs lafit sich 
der zeitliche Ablauf des Auftretens bestimmter 

25 Merkmalsvektoren (selbst innerhalb eines Phonems) 

modellieren. Ein entsprechendes Phonem-Modell umfafit dabei 
eine vorgegebene Anzahl von Zustanden, die linear 
hintereinander angeordnet sind. Ein Zustand eines HMMs stellt 
einen Teil eines Phonems (bspw. mit einer Dauer von 10ms) 

30 dar. Jeder Zustand ist verknupft mit einer 

Emissionswahrscheinlichkeit, die insbesondere nach GauB 
verteilt ist, fur die Merkmalsvektoren und mit 
Transitionswahrscheinlichkeiten fur die moglichen Obergange. 
Mit der Emissionsverteilung wird einem Merkmalsvektor eine 

35 Wahrscheinlichkeit zugeordnet, mit der dieser Merkmalsvektor 
in einem zugehorigen Zustand beobachtet wird. Die moglichen 
Obergange sind ein direkter Obergang von einem Zustand in 
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einen nachsten Zustand, ein Wiederholen des Zustands und ein 
Oberspringen des Zustands. 

Eine Aneinanderreihung von HMM-Zustande mit.den zugehorigen 
5 Obergangen uber die Zeit wird als Trellis bezeichnet. Urn die 
akustische Wahrscheinlichkeit eines Wortes zu bestimmen, 
verwendet man insbesondere das Prinzip der dynamischen 
Programmierung: Es wird der Pfad durch die Trellis gesucht, 
der den geringsten Fehler aufweist bzw. der durch die groftte 
10 Wahrscheinlichkeit fur ein zu erkennendes Wort bestimmt ist. 

Das Ergebnis der globalen Suche ist die Ausgabe bzw. 
Bereitstellung einer erkannten Wortfolge, die sich unter 
Berucksichtigung des akustischen Modells (Phoneminventar) fur 
15 jedes einzelne Wort und des Sprachmodells fur die Abfolge von 
Wortern ergibt. 

Aus [2] ist ein Verfahren zur Sprecheradaption, basierend auf 
einer MAP-Schatzung (MAP = maximum a posteriori) von HMM- 

2 0 Parametern bekannt. 

So ist es laut [2] anerkannt, daft ein sprecherabhangiges 
System zur Spracherkennung normalerweise bessere Ergebnisse 
als ein sprecherunabhangiges System liefert, sofern 
ausreichend Trainingsdaten verfiigbar sind, die eine 

25 Modellierung des sprecherabhangigen Systems ermoglichen. 
Sobald jedoch die Menge der sprecherspezif ischen 
Trainingsdaten beschrankt ist, erreicht das 
sprecherunabhangige System die besseren Resultate. Eine 
Moglichkeit zur Leistungssteigerung beider Systeme, also 

30 sowohl des sprecherabhangigen als auch des 

sprecherunabhangigen Systems zur Spracherkennung, besteht 
darin, die vorab gespeicherten Datensatze mehrerer Sprecher, 
derart zu benutzen, daft auch eine kleine Menge Trainingsdaten 
ausreicht, urn einen neuen Sprecher in ausreichender Qualitat 

35 zu modellieren. Solch ein Trainingsverf ahren wird 

Sprecheradaption genannt. In [2] wird insbesondere die 
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Sprecheradaption durch eine MAP-Schatzung der Hidden-Markov- 
Modell-Parameter durchgef uhrt . 

Generell verschlechtern sich Ergebnisse eines Verfahrens zur 
Erkennung gesprochener Sprache, sobald charakteristische 
Merkmale der gesprochenen Sprache von charakteristischen 
Merkmalen der Trainingsdaten abweichen. Beispiele fur 
charakteristische Merkmale sind Sprechereigenschaf ten oder 
akustische Kontexte, die sich in Form von Verschleif ungen auf 
die Artikulation der Phoneme auswirken. 

Der in [2] verfolgte Ansatz zur Sprecheradaption besteht 
darin, Parameterwerte der Hidden-Markov-Modelle 
"nachzuschatzen" , wobei diese nach Verarbeitung "offline", 
15 d.h. nicht zur Laufzeit des Verfahrens zur Spracherkennung, 
durchgef uhrt wird. 

Die Aufgabe der Erfindung besteht darin, eine Anordnung und 
ein Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
20 in gesprochener Sprache anzugeben, wobei insbesondere eine 
Anpassung des akustischen Modells zur Laufzeit (also 
"Online") vollzogen wird. 

Diese Aufgabe wird gemaB den Merkmalen der unabhangigen 
25 Patentanspriiche gelost. 

Zur Losung der Aufgabe wird ein Verfahren zur Erkennung eines 
vorgegebenen Wortschatzes in gesprochener Sprache durch einen 
Rechner angegeben, in dem aus der gesprochenen Sprache ein 
Sprachsignal bestimmt wird. Das Sprachsignal wird einer 
Signalanalyse unterworfen, woraus Merkmalsvektoren zur 
Beschreibung des digitalisierten Sprachsignals hervorgehen. 
Eine globale Suche wird zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 
durchgef uhrt, wobei jedes Phonem der Sprache durch ein 
modif iziertes Hidden-Markov-Modell und jeder Zustand des 
modif izierten Hidden-Markov-Modells durch eine 
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Wahrscheinlichkeitsdichtef unktion beschrieben wird. Es 
erfolgt eine Anpassung der Wahrscheinlichkeitsdichtef unktion 
derart, dafl sie in eine erste Wahrscheinlichkeitsdichte- 
funktion und in eine zweite Wahrscheinlichkeitsdichtef unktion 
5 aufgespalten wird. Schliefllich wird von der globalen Suche 
eine erkannte Wortfolge bereitgestellt . 

Hierbei sei angemerkt, dali die Wahrscheinlichkeitsdichte- 
funktion, die in eine erste und in eine zweite 

10 Wahrscheinlichkeitsdichtefunktion aufgespalten wird, eine 
Emissionsverteilung fur einen vorgegebenen Zustand des 
modif izierten Hidden-Markov-Modells darstellen kann, wobei 
diese Emissionsverteilung auch eine Uberlagerung mehrerer 
Wahrscheinlichkeitsdichtef unktionen, z . B . Gaufi-Kurven 

15 (GauJi'sche Wahrscheinlichkeitsdichteverteilungen) , enthalten 
kann. 

Eine erkannte Wortfolge kann dabei auch einzelne Lauten bzw. 
nur ein einzelnes Wort umfassen. 

20 

Sollte im Rahmen der globalen Suche eine Erkennung mit einem 
hohen Wert fur den Abstand zwischen gesprochener Sprache und 
von der globalen Suche ermittelten dazugehoriger Wortfolge 
behaftet sein, so kann die Zuordnung eines Nullwortes 
25 erfolgen, welches Nullwort anzeigt, das die gesprochene 
Sprache nicht mit ausreichender Gute erkannt wird. 

Es ist ein Vorteil der Erfindung, durch die Aufspaltung der 
Wahrscheinlichkeitsdichtef unktion in einem durch die 
30 Merkmalsvektoren auf gespannten Merkmalsraum neue Bereiche zu 
schaffen, die signifikante Information in Bezug auf die zu 
erkennenden digitalisierten Sprachdaten aufweisen und damit 
eine verbesserte Erkennung zu gewahrleisten . 

35 Eine Ausgestal tung besteht darin, dali die 

Wahrscheinlichkeitsdichtefunktion in die erste und in die 
zweite Wahrscheinlichkeitsdichtef unktion aufgespalten wird, 
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falls der Abfall eines Entropiewertes unterhalb einer 
vorgegebenen Schranke liegt. 

Die Aufspaltung der Wahrscheinlichkeitsdichtef unktion in 
Abhangigkeit von einem Entropiewert erweist sich in der 
Praxis als aufierst vorteilhaft. 



Die Entropie ist allgemein ein Mali fur eine Unsicherheit bei 
einer Vorhersage eines statistischen Ereignisses . Die 
10 Entropie ist insbesondere itiathematisch bestimmbar fur Gaufi- 
Verteilungen, wobei eine direkte logarithmische Abhangigkeit 
zwischen der Streuung a und der Entropie besteht. 

Eine andere Ausgestaltung der Erfindung besteht darin, dafl 
15 die Wahrscheinlichkeitsdichtefunktionen, insbesondere die 
erste und die zweite Wahrscheinlichkeitsdichtef unktion 
jeweils mindestens eine Gauli-Verteilung umfassen. 

Die Wahrscheinlichkeitsdichtefunktion des Zustandes wird 
20 durch eine Summe mehrerer Gauflverteilungen angenahert. Die 
einzelnen Gauiiverteilungen werden Moden genannt . Bei dem 
vorgestellten Verfahren werden die Moden insbesondere 
isoliert voneinander betrachtet. Bei jedem einzelnen 
Auf spaltvorgang wird eine Mode in zwei Moden aufgeteilt. Wenn 
25 die Wahrscheinlichkeitsdichtef unktion aus M Moden gebildet 
"wurde, so wird sie nach dem Auf spaltvorgang aus M+l Moden 
gebildet. Wird eine Mode beispielsweise als eine 
Gaufiverteilung angenommen, so kann eine Entropie berechnet 
werden, wie im Ausf uhrungsbeispiel gezeigt wird. 

30 

Eine Online-Adaption ist deshalb vorteilhaft, weil das 
Verfahren nach wie vor Sprache erkennt, ohne in einer 
gesonderten Trainingsphase auf die Veranderung des 
Wortschatzes eingestellt werden zu miissen. Es erfolgt eine 
35 Selbstadaption, die insbesondere notwendig wird durch eine 
veranderte Koartikulation der Sprecher aufgrund eines 
Hinzufugens eines neuen Wortes. 
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Die Online-Adaption erfordert demnach keine gesonderte 
Berechnung der Wahrscheinlichkeitsdichtef unktionen, die 
wiederum flir eine Nicht-Verf ugbarkeit des Systems zur 
5 Spracherkennung verantwortlich ware. 

Eine Weiterbildung der Erfindung besteht darin,daft fur die 
erste Wahrscheinlichkeitsdichtef unktion und fur die zweite 
Wahrscheinlichkeitsdichtef unkt ion gleiche 

Standardabweichungen bestimmt werden. Ein erster Mittelwert 
der ersten Wahrscheinlichkeitsdichtef unktion und ein zweiter 
Mittelwert der zweiten Wahrscheinlichkeitsdichtef unktion 
werden derart bestimmt, daJJ der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist. 

Dies ist ein Beispiel fur die Gewichtung der aus der 
Wahrscheinlichkeitsdichtef unktion auf gespaltenen ersten und 
zweiten Wahrscheinlichkeitsdichtef unktion . Es sind auch 
beliebig andere Gewichtungen vorstellbar, die auf den 
jeweiligen Anwendungsf all anzupassen sind, 

Schlieftlich ist es eine Weiterbildung, daJi das Verfahren 
mehrfach hintereinander durchgefiihrt wird und somit eine 
wiederholte Aufspaltung der Wahrscheinlichkeitsdichtef unktion 
25 erfolgt. 

Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspruchen. 

30 Eine andere Losung der Aufgabe besteht darin, eine Anordnung 
mit einer Prozessoreinheit anzugeben, welche Prozessoreinheit 
derart eingerichtet ist, dali folgende Schritte durchftihrbar 
sind: 

35 a) aus der gesprochenen Sprache wird ein digitalisiertes 

Sprachsignal bestimmt; , 
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b) auf dem digitalisierten Sprachsignal erfolgt eine 
Signalanalyse, woraus Merkmalsvektoren zur 
Beschreibung des digitalisierten Sprachsignals 
hervorgehen; 

c) eine globale Suche zur Abbildung der Merkmalsvektoren 
erfolgt auf eine in modellierter Form vorliegende 
Sprache, wobei Phoneme der Sprache durch ein 

modif iziertes Hidden-Markov-Modell und j eder Zustand 
des Hidden-Markov-Modells durch eine 

Wahrscheinlichkeitsdichtef unktion beschreibbar ist; 

d) die wird Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepalit, indem die 
Wahrscheinlichkeitsdichtef unktion in eine erste 
Wahrscheinlichkeitsdichtef unktion und in eine zweite 
Wahrscheinlichkeitsdichtef unktion auf gespalten wird; 

e) von der globalen Suche wird eine erkannte Wortfolge 
bereitgestellt . 

Diese Anordnung ist insbesondere geeignet zur Durchfuhrung 
des erf indungsgemalien Verfahrens oder einer seiner vorstehend 
erlauterten Weiterbildungen . 

Ausfuhrungsbeispiele der Erfindung werden nachfolgend anhand 
der Zeichnung dargestellt und erlautert. 

Es zeigt 

Fig.l eine Anordnung bzw. ein Verfahren zur Erkennung 
gesprochener Sprache. 

In Figur 1 sind eine Anordnung bzw. ein Verfahren zur 
Erkennung gesprochener Sprache dargestellt. Zur Erlauterung 
der nachstehend verwendeten Begriffe sei auf die 
Beschreibungseinleitung verwiesen. 

Ein digitalisiertes Sprachsignal 101 wird in einer 
Signalanalyse 102 einer Fouriertransf ormation 103 mit 
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anschliefiender Merkmalsextraktion 104 unterzogen. Die 
Merkmalsvektoren 105 werden an ein System zur globalen Suche 
106 ubermittelt . Die globale Suche 106 berucksichtigt sowohl 
ein akustisches Modell 107 als auch ein linguistisches Modell 
5 108 zur Bestimmung der erkannten Wortfolge 109. Aus dem 
digitalisierten Sprachsignal 101 geht somit die erkannte 
Wortfolge 109 hervor. 

In dem akustischen Modell 107 wird das Phoneminventar anhand 
10 von Hidden-Markov-Modellen nachgebildet . 

Eine Wahrscheinlichkeitsdichtef unktion eines Zustands des 
Hidden-Markov-Modells wird durch eine Auf summierung einzelner 
GauBscher Moden angenahert. Eine Mode ist insbesondere eine 

15 Gauiiglocke. Durch Auf summie rung mehrerer Moden entsteht eine 
Mischung einzelner Gaufiglocken und damit eine Modellierung 
der Emissionswahrscheinlichkeitsdichtef unktion. Anhand eines 
statistischen Kriteriums wird entschieden, ob der zu 
erkennende Wortschatz des Spracherkenners durch das 

20 Hinzufiigen weiterer Moden verbessert modelliert werden kann. 
Im Fall der vorliegenden Erfindung wird dies insbesondere bei 
Erfullung des statistischen Kriteriums durch inkrementelles 
Aufspalten bereits existierender Moden erreicht. 



25 Die Entropie ist definiert durch 



00 

H p = ~ J P(x) log2 p(x) dx 

— 00 



(1) 



unter der Annahme, dali p(x) eine Gauft-Verteilung mit einer 
30 diagonalen Kovarianzmatrix ist, also 



p(x) = jv(\x, a n ) = ; 1 yT 1 " ex P 



_ U ( x n - Mn) 2 
2 n -2 



(2) 
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10 

erhalt man 

N 

Hp = ^ lo< 32 V27te a n (3), 
n = l 

wobei 

Vi den Erwartungswert, 

a n die Streuung fur jede Komponente n und 
N die Dimension des Merkmalsraums 
bezeichnen. 

Die wahre Verteilung p(x) ist nicht bekannt. Sie wird 

insbesondere als Gauft verteilung angenommen. Im akustischen 
Modell wird die Wahrscheinlichkeit p(x) anhand von 

Stichproben angenahert mit 



p(x) = jv({l, o n ), 



wobei 



1 L - 

A = 7 Z x i 
L 1 = 1 



einen Mittelwert uber L Beobachtungen darstellt. Die 
korrespondierende Entropie als Funktion von {l ist gegeben 
durch 



00 

H p(A) = - J p(x) log 2 p(x) dx (4) , 

— 00 



was schliefllich zu 



Hp(A) = H p + i feLJ_*n£ log2 ^ (g) 
n = l °n 
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fuhrt . 



Der Erwartungswert Ej(ji n - An) 2 } betragt ~ a n ' so dafi der 
Erwartungswert von Hp(A) gegeben ist als 

5 

H£ = e{h^(A)} = Hp + ^log 2 Ve (6) . 

Fur die Entropie einer Mode, die mit einer GauB-Verteilung 
mit einer diagonalen Kovarianzmatrix bestimmt wird, ergibt 
10 sich also Gleichung (3) . Der Prozefi wird nun mit einer 

Schatzung angenahert. Die Entropie des angenaherten Prozesses 
ergibt sich zu 

N r- 

H = H + — log 2 Ve (7) . 

Lt 



Je grdfier die Anzahl L der Stichproben ist, um so besser wird 
die Abschatzung und um so mehr nahert sich die geschatzte 
Entropie H der wahren Entropie H an. 



20 Es soli nun 

p(x) = jv({i, a n ) ( 8 ) 

die auf zuteilende Mode sein. Ferner wird angenommen, dafi die 
25 zwei Gauii-Verteilungen, die durch den Auf teilungsprozeii 
entstehen, identische Standardabweichungen a s haben und 
gleich gewichtet sind. Dies ergibt 

P S (x) = \ JV$l, o s ) + \ JV(M, a s ) (9) . 

30 

Unter der Annahme, daii Hi « Al r H2 A2 und da ^ M-l 
ausreichend weit entfernt von H2 ist ' ergibt sich die 
Entropie der auf gespaltenen Wahrscheinlichkeitsdichtef unktion 
jeweils zu 
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H s = 1 - logo V27te + - logo Ve — + logo Ve — 
^ z n 2 V Li Loy 

n = l 



(10) . 



Als Auf teilungskriterium wird eine Verminderung der Entropie 
5 durch den Auf spaltungsvorgang gefordert, also 



H — H > C 



(11) , 



wobei C (mit C > 0) eine Konstante 1st, die den gewunschten 
10 Abfall der Entropie darstellt. Wird 



= Li = L 2 



(12) 



15 



angenommen, so ergibt sich hierdurch 



log2 — > log2 Ve — + 1 + C 



(13) . 



n = l 



'n 



Eine Moglichkeit, die Lage der Mittelpunkte der beiden neuen 
Moden zu bestimmen, wird im folgenden aufgezeigt. Eine 
20 bevorzugte Vorgabe besteht darin, dafl Kriterium zum 

Aufspalten zu erfUllen. In dem angeftihrten Beispiel wird {if 
der Wert von £ zugewiesen. fif erhalt eine Maximum- 

Likelihood-Schatzung derjenigen Beobachtungen, die im 
Viterbi-Pfad auf {i abgebildet werden. Diese Bestimmungen 
25 zeigen lediglich eine Moglichkeit auf, ohne dafl eine 
Einschrankung des vorgestellten Verfahrens auf diese 
Moglichkeit beabsichtigt ist. 



Die folgenden Schritte der Beispielanwendung zeigen die 
30 Einbettung in eine Anordnung zur Spracherkennung bzw. ein 
Verfahren zur Spracherkennung. 

Schritt 1: Initialisierung : £f = jl , jl^ = jl . 
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Schritt 2: Erkennen der Aulierung , Analysieren des 
Viterbi-Pf ads; 

Schritt 3: Fiir jeden Zustand und fur jede Mode des 
Viterbi-Pf ades : 

Schritt 3.1: Bestiiame c n ; 

Schritt 3.2: Bestimme L2 auf Grundlage derjenigen 

Beobachtungen, die naher an jl^ als an {if 
liegen und setze L = L2 . Falls jlf und {if 
identisch sind, so ordne die zweite 
Halfte der Merkmalsvektoren jl^ uncl die 
erste Halfte der Merkmalsvektoren jl^ zu. 

Schritt 3.3: Bestimme entsprechend auf Grundlage 

der L2~Aui3erungen; 

Schritt 3.4: Ermittle jlf neu auf Grundlage des 

Mittelwerts derjenigen Beobachtungen," die 
naher an jlf als an Sf liegen; 

Schritt 3.5: Werte Auf teilungskriterium nach 
Gleichung (13) aus; 

Schritt 3.6: Falls Auf teilungskriterium nach 

Gleichung (13) positiv ist, generiere 
zwei neue Moden mit den Mittelpunkten jlf 
und jlf . 



Schritt 4: 



Gehe zu Schritt 2. 
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Im Rahmen dieses Dokuments wurden folgende Verof f entlichungen 
zitiert : 

[1] N. Haberland et al.: "Sprachunterricht - Wie funktioniert 
die computerbasierte Spracherkennung?", c't - Magazin fur 
5 Computertechnik - 5/1998, Heinz Heise Verlag, Hannover, 

1998, Seiten 120 bis 125. 

[2] C. H. Lee et al . : "Speaker Adaptation Based on MAP 
Estimation of HMM Parameters"; Proc. IEEE Intern. 
Conference on Acoustics, Speech and Signal Processing, 
10 Seiten 11-588 bis 11-561. 
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Patentanspriiche 

1. Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache durch einen Rechner, 

a) bei dem aus der gesprochenen Sprache ein 
digitalisiertes Sprachsignal bestimmt wird, 

b) bei dem auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchgefuhrt wird, woraus 
Merkmalsvektoren zur Beschreibung des digitalisierten 
Sprachsignals hervorgehen, 

c) bei dem eine globale Suche zur Abbildung der 
Merkmalsvektoren auf eine in modellierter Form 
vorliegende Sprache durchgefuhrt wird, wobei Phoneme 
der Sprache durch ein modif iziertes Hidden-Markov- 
Modell und jeder Zustand des Hidden-Markov-Modells 
durch eine Wahrscheinlichkeitsdichtef unktion 
beschrieben wird, 

d) bei dem die Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepafit wird, indem die 
Wahrscheinlichkeitsdichtefunktion in eine erste 
Wahrscheinlichkeitsdichtefunktion und in eine zweite 
Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 

e) bei dem von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 

2. Verfahren nach Anspruch 1, 

bei dem die Wahrscheinlichkeitsdichtef unktion in die 
erste und in die zweite Wahrscheinlichkeitsdichtef unktion 
aufgespalten wird, falls der Abfall eines Entropiewertes 
unterhalb einer vorgegebenen Schranke liegt. 

3. Verfahren nach Anspruch 1 oder 2, 

bei dem die Veranderung des Wortschatzes zur Laufzeit des 
Verfahrens durchgefuhrt wird. 

4. Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem die Veranderung des Wortschatzes bedingt ist 



98 P 1687 




16 

durch Hinzufiigen eines Wortes zum Wortschatz oder bei dem 
sich Aussprachegewohnheiten eines Sprechers andern. 

Verfahren nach einem der vorhergehenden . Anspruche, 
bei dem die erste Wahrscheinlichkeitsdichtef unktion und 
die zweite Wahrscheinlichkeitsdichtef unktion j eweils 
mindestens eine Gauflverteilung umfassen. 

Verfahren nach Anspruch 5, 

bei dem ftlr die erste Wahrscheinlichkeitsdichtef unktion 
und fur die zweite Wahrscheinlichkeitsdichtef unktion 
gleiche Standardabweichungen, ein erster Mittelwert der 
ersten Wahrscheinlichkeitsdichtef unktion und ein zweiter 
Mittelwert der zweiten Wahrscheinlichkeitsdichtef unktion 
ermittelt werden, wobei der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist. 

Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem die Aufspaltung mehrfach durchgefuhrt wird. 



Anordnung zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache mit einer Prozessoreinheit , die 
derart eingerichtet ist, dali 

a) aus der gesprochenen Sprache ein digitalisiertes 
Sprachsignal bestimmbar ist, 

b) auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchf uhrbar ist, woraus 

Merkmalsvektoren zur Beschreibung des digitalisierten 
Sprachsignal s hervorgehen, 

c) eine globale Suche zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 
erfolgt, wobei Phoneme der Sprache durch ein 

modif iziertes Hidden-Markov-Modell und jeder Zustand 
des Hidden-Markov-Modells durch eine 
Wahrscheinlichkeitsdichtef unktion beschreibbar ist, 
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d) die Wahrscheinlichkeitsdichtefunktion durch 
Veranderung des Wortschatzes angepafit wird, indent die 
Wahrscheinlichkeitsdichtef unktion in eine erste 
Wahrscheinlichkeitsdichtef unktion und in eine zweite 

5 Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 

e) von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 
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Zusammenf as sung 

Anordnung und Verfahren zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache durch einen Rechner 

5 

Bei der Spracherkennung werden Phoneme einer Sprache durch 
ein Hidden-Markov-Modell modelliert, wobei jeder Zustand des 
Hidden-Markov-Model Is durch eine 

Wahrscheinlichkeitsdichtefunktion beschrieben wird. Zur 
10 Spracherkennung eines veranderten Wortschatzes wird die 
Wahrscheinlichkeitsdichtef unktion in eine erste und eine 
zweite Wahrscheinlichkeitsdichtef unktion auf gespalten . 
Dadurch wird es moglich, Veranderungen der Sprachgewohnheit 
eines Sprechers zu kompensieren oder ein neues Wort dem 
15 Wortschatz des Spracherkenners hinzuzuftigen und dabei 

sicherzustellen, dafi dieses neue Wort mit ausreichender Gute 
von den bereits im Spracherkenner vorhandenen Wortern 
unterschieden und somit er kannt wird . 



20 



Figur 1 



1/1 
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Schutzee die Verdffentlichung dieaer Anspruche wOnscht Oder ein anderer Grund fur eine An de rung der AnsprQche vor ihrer intemationa- 
len Verdffentlichung voriiegt. Weiterhin tst zu beachten, daB ein vorlaufiger Schutz nur in einigen Staaten erhalttich tat 



Welch* Telle der Internationalen Anmeldung konnen geandert werden? 

Im Rahmen von Artikel 19 konnen nur die Anspruche geandert werden. 

In der internationalen Phase kfinnen die AnsprQche auch nach Artikel 34 vor der mit der intern ationalen vorlaufigen PrQfung beauf- 
tragten Be horde geandert (oder nochmals geandert) werden. Oie Beschreibung und die Zeichnungen konnen nur nach Artikel 34 
vor der mit der internationalen vorlaufigen PrQfung beauftragten Behdrde geandert werden. 

Beim Eintrrtt in die nation ale Phase konnen alle Teile der internationalen Anmeldung nach Artikel 28 oder ge ge be nen falls Artikel 
41 geandert werden. 



Bis warm slnd Anderungen einzureichen? 

Innerhalb von zwei Monaten ab der Obermittlung des internationalen Recherchenberichts oder innerhalb von sechzehn Monaten ab 
dem Prioritatadatum, je nachdem t welcfte Frist spater ablauft Die Anderungen gotten jedoch ala rechtzeitig eingereksrrt, wenn sie 
dem Internationalen BOro nach AWauf der maBgebenden Frist, aber noch vor AbschluB der technischen Vorbereitungen fOr die 
Internationale Veroffenttfchung (Reg el 46.1) zugehen. 



Wo slnd die Anderungen nicht einzureichen? 

Oie Anderungen konnen nur beim Internationalen BOro, nicht aber beim Anmetdeamt oder der Internationalen Recherchenbehorde 
eingereicht werden (Re gel 46.2). 

Falls ein Antrag auf Internationale voriflufige PrQfung eingereicht wurde/wird, siehe unten. 



In weicher Form konnen Anderungen erf olgen? 

Eine Anderung kann erfolgen durch Streichung eines oder mehrerer ganzer AnsprQche, durch HinzufOgung eines Oder mehrerer 
neuer AnsprQche oder ourch Anderung des Wortlauts eines oder mehrerer Anspruche in der eingereichten Fassung. 

FQr jedes AnspruchsbJatt, das sich aufgrund einer oder mehrerer Anderungen von dem ursprQnglich eingereichten Blatt 
unteracheidet, ist ein Ersatz blatt einzureichen. 

Alle AnsprQche, die auf einem Ersatzblatt erscheinen, sind mrt arabischen Ziffem zu numerieren. Wird ein Anspruch gestrichen so 
brauchen, die anderen AnsprQche nicht neu numeriert zu werden. Im Fall einer Neunumerierung sind die AnsprQche fortlaufend zu 
numeneren (Verwaitungsriohtlinien, Abschnitt 205 b)). 

Die Anderungen slnd In der Sprache abzufassen, In der d I ©International* Anmeldung verdfTentllcht wird. 



Wei che Unterlagen slnd den Anderungen belzufugen? 
BegletUchref ben (Abschnitt 205 b)): 

Die Anderungen sind mit einem Begleitschreiben einzureichen. 

Das Beglertschreiben wird nicht zusammen mit der intemationaJen Anmeldung und den geandert en AnsprQchen veroffentlicht Es 
ist nicht zu verwechseln mit der 'ErWarung nach Artikel 1 9(1 )• (siehe unten, "ErWarung nach Artikel 19(1)"). 

?Kii^f? l ? rtSCh .r° <b ? n ^ nac h w ahl des Anmefders In englischer oder franzoslscher Sprache abzutassen. Bel engllschspra- 

n*?«« ^ '!? da cf B ^ ort A Chre,bCn a^«benfalls In englischer, be) franzdslschsprachlgen Inter- 

nationalen Anmef dungen In franzoslscher Sprache afazufassen. 



Anmerkungen zu Fomiblatt PCT/ISA/220 (Blatt 1 ) (Januar 1994) 
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ANMERHpGEN ZU FORMBLATT PCT/ISA/220 pVsetzung) 



lm Begleitschreiben sind die Unterschiede zwischen den AnsprOchen in der eingereichten Fassung und den geanderten AnsprOchen 
anzugeben. So tst insbesondere zu jedem Anspruch in der intemalionalen Anmeldung anzugeben (gleichlautende Angaben zu 
verschiedenen AnsprOchen konnen zusammengefaftt werden), ob 

i) der Anspruch unverandert rst; 

ii) der Anspruch gestrichen worden ist; 

iii) der Anspruch neu ist; 

iv) der Anspruch einen oder mehrere AnsprOche in der eingereichten Fassung ersetzt; 

v) der Anapmch auf die Tetlung ernes Anspruchs in der eingereichten Fassung zuruckzufuhren ist. 



Im folgenden sind Beispiele angegeben, wle Anderungen im Begleitschreiben zu erlautem sind: 

1. fWenn ans telle von ursprungttoh 46 AnsprOchen nach der An de rung einiger AnsprOche 51 An sprue he exrstieren]: 

"Die AnsprOche 1 bis 29, 31, 32, 34, 35, 37 bis 48 warden durch geanderte AnsprOche gleicher Numenerung ersetzt; Anspruch© 
30, 33 und 36 unverandert; neue AnsprOche 49 bis 51 hinzugefOgt." 

2. [Wenn anstelle von ursprOngtich 1 5 AnsprOchen nach der Anderung alter AnsprOche 1 1 AnsprOche exrstieren]: 
"Geanderte AnsprOche 1 bis 1 1 treten an die Stelle der AnsprOche 1 bis 15." 

3. (Wenn ursprungltch 14 AnsprOche existierten und die Andenjngen dann bestehen, daft einige AnsprOche gestrichen werden und 
neue AnsprOche hinzugefOgt werden]: 

AnsprOche 1 bis 6 und 14 unverandert; AnsprOche 7 bis 13 gestrichen; neue AnsprOche 15, 16 und 1 7 hinzugefOgt. "Oder" An- 
sprOche 7 bis 13 gestrichen; neue AnsprOche 15, 16 und 17 hinzugefOgt; alle Obrigen AnsprOche unverandert * 

4. [Wenn verschiedene Art en von Andenjngen durchgefOhrt werden]: 

'AnsprOche 1-10 unverandert; AnsprOche 11 bis 13, 18 und 19 gestrichen; AnsprOche 14, 15 und 16 durch geanderten An- 
spruch 14 ersetzt, Anspruch 1 7 in geanderte AnsprOche 15, 16 und 17 unterteilt; neue AnsprOche 20 und 21 hinzugefOgt." 

"Erklarung nach Artikel 19(1} M (Reg* 46.4) 

Den Andenjngen kann eine Erklarung betgefOgt werden, mit der die Anderungen erlautert und ihre Auswirkungen auf die 
Beschreibung und die Zeichnungen dargelegt werden (die nicht nach Artikel 1 9 (1 ) geAndert werden konnen). 

Die Erklarung wtrd zuaammen mit der intemationaJen Anmeldung und den geanderten AnsprOchen veroffentlicht. 
Sle ist in der Sprache abzufassen, in der die intenurtionalen Anmeldung veroffentlicht wlrd. 

Sie mufi kurz gehalten sein und darf, wenn in engltscher Sprache abgefaftt oder ins Englische Obersetzt, nicht mehr aJs 500 
Worter umfassen 

Die Erklarung ist nicht zu verwechseln mit dem Begleitschreiben, das auf die Unterschiede zwischen den AnsprOchen in der 
eingereichten Fassung und den geanderten AnsprOchen hinweist, und ersetzt letzteres nicht. Sie ist auf einem gesonderten Blatt 
einzureichen und in der Uberschnft aJs solche zu kennzeichnen, vorzugsweise mit den Worten "ErWarung nach Artikel 19 (1)*. 

Die Erklarung darf keine herabsetzenden AuBerungen Ober den internationalen Recherchenbericht oder die Bedeutung von in dem 
Bericht angefOhrten VerCffentlichungen enthalten. Sie darf auf im internationalen Recherchenbencht angefQhrte Veroffentlichun- 
gen, die sich auf einen bestimrrtten Anspruch beziehen, nur im Zusammenhang mit einer Anderung dieses Anspruchs Bezug 
nehmen 



Auswirkungen eines beretts gestellten Antrags auf Intemattonalevorlatrftge PrOfung 

Ist zum Zeitpunkt der Einreichung von Andenjngen nach Artikel 19 bereits ein Antrag auf internationale vorlaufige PrOfung 
gestellt worden, so soflte der Anmelder in seinem Interesse gleichzertig mit der Einreichung der Anderungen beim Intern ation alen 
BOro auch eine Kopie der Anderungen bei der mit der internationalen voriaufigen PrOfung beauftragen Beh6rde einreichen (siehe 
Regel 62.2 a), erster Satz). 



Auswirkungen von Anderungen hlnslchttleh der Obersetzung dertntemationaJen Anmeldung beim Elntrtt! In die 
nationale Phase 

Der Anmelder wird darauf hingewiesen, daB bei Eintritt in die nationale Phase mdglicherweise an start oder zuaatzlich zu der Qber- 
setzung der AnsprOche in der erngereichten Fassung eine Ubersetzung der nach Artikel 19 geanderten AnsprOche an die 
bestimmten/ausgewahtten Amter zu Obermitteln ist. 

Nahere Einzelheiten Ober die Erfordemisse jedes bestimmten/ausgewahlten Amts sind Band II des PCT-Leittadena fur Anmelder 
zu errt nehmen 



Anmerkungen zu Formblatt PCT/ISA/220 (Blatt 2) (Januar 1994) 
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VERTRAG 



I 



R DIE INTERNATIONALE ZUS 
DEM GEBIET DES PATENTWE5 



ESEN 



JENARBEn 
S 



PCT 

INTERNATIONALER RECHERCHENBERICHT 

(Arilkel 18 sowte Regain 43 und 44 PCT) 



Aktenzekhen dee Anmektere Oder Anwafts 

GR 98P1688P 


WETTERES sJehe Mfttetlung uber die Ubefmttttung des Internationalen 

Recherchenbertchts (Fbtmbtatt PCT/1SA/220) aowle, sowett 
VORQEHEN zutreffend, rtachstehender Punkt 5 


Internationales Aktsenzelchen 
PCT/DE 99/01323 


Internationales AnmeMedatum 
(Tag/Monat/Jahr) 

03/05/1999 


(Frimeetee) PrtorBStadatum (Tag/Monat/Jahr) 

11/05/1998 


AnmeMer 

SIEMENS AKTIENGESELLSCHAFT et al . 



Dleeer Irternationale RecherchenberJcht wurde von der Internationalen Rechercnenbertorde eratelft und wtrd dem AnmeMer gem&B 
Artikel 18 ubermftteft. Elne Kop(e wtrd dem Internationalen BOro ubermrttert 

Dteser Internationale Rechercheflberflctrt umfaBt Inagesamt _3 Blatter. 

fX] Daiuber htnaus Degt Ihm Jewells elne KopJe der In dlesem Berlcht genartnten Untertagen zum Stand der Techrdk beL 



1. Grundlage 

a. HlnsJchtflcri der Sprache 1st die Internationale Recherche auf der Grundlage der Irrternatlonalen Anmeldung In der Spraohe 
durchgefQhrt worden, In der ale elngerelcht wurde, aofem unter dlesem Punkt nJchts anderea angegeben 1st 

| | Die Internationale Recherche 1st auf der Grundlage elrter bel der Behorde etngerelohten Obersetzung der Irttemationalen 
AnmeMung (Regel 23.1 b)) durchgefQhrt worden. 

b. Hlnstehtilch der In der Internationalen AnmeWung offenbarten Nuctootid- unoVodar Aminosfiureaequenz 1st die bitemationale 
Recherche auf der Grundlage dee Sequerizprotokolte durchgefQhrt worden, das 

| | In der Internationalen Anmeldung In SchrtfDcher Form enthaften 1st 

zusammen mtt der Internationalen Anmeldung In ccmputertesbarer Form elngerelcht worden 1st 
bel der Behorde nachtragDch In schrtftilcher Form elngerelcht worden 1st 
bel der Behorde nachtragDch In conriputerieabarer Form elngerelcht worden 1st 

Die Erktarung, daB das nachtragDch elngerelchte schriftDche Sequenzprotokoll nlcht Qber den Offenbarungsgehart der 
tnternatlonalen Anmeldung bm AnmeUezeftpunkt htnausgeht, wurde vorgelegt 

Die Erid&rung, daB die In compirterieabarer Form erfaBten Informationen dem schrfftfichen Sequenzprotokofl entsprechen, 
wurde vorgelegt 



2. 

a 



□ 
□ 
□ 
□ 

□ 

□ 
□ 



Bestimmte AnsprQche ha ben sich ate rticht I 
Mangeinde Eirtheitlichtoit der Erfindimg (slehe Fefd II). 



i (slehe FeW I). 



4. HtnslchtDch der D ezei ch nunq der Erflndung 

|X| wtrd der vom AnmeMer elngerelchte Wortiaut genehrrtlgt 
| | wurde der Wortiaut von der Behorde wle folgt festgeaetzt 



5w Hlnstehtilch der Z usa imne nfassu ng 

|Y| wtrd der vom AnmeWer elngerelchte Wortiaut genehrrtlgt 

, , wurde der Wortiaut nach Regel 38.2b) In der In FeW II I angegebenen Faseung von der Behorde festgeaetzt Der 

| I AnmeMer karai der Behorde Innerhal) etnee Monats nach dem Datum der Absendung dieses trrternationalen 

Rechercrienberlchts elne Steflungnahme vortegen. 

a Folgende AbbOdung der Zeichnungsn 1st mil der Zusammenfassung zu verdfferrtfichen: Abb. Nr. ] 



[X| wle vom Anmelder vorgeachlagen Q kelne der Abb. 

I | well der AnmeWer sefcst kelne Abblldung vorgeachlagen hat 
[ | well dlese AbbOdung die Erflndung besser kennzeichnet 



Forrnbiatt PCT/1SA/210 (Blatt 1) (Jull 1998) 



INTERNATIONA LER^ECHERCHENBERICHT 



:R^p< 




7WDE 99/01323 



A. KLA88HDERUNQ OE8 ANMELDUHQSQEQEM9TANDE8 

IPK 6 G10L5/06 G10L3/00 



Nach def tntemaMoneden PatenttdagsmVaflon (IPK) oder nach der nafloneden KbeeBPcaflon und def IPK 



B. RECHERCtflEHTE QEBJETE 



Rechetc hte rter Mndeetprufetofl (Waaafflkaflcnssyrtein und Wassfflkaflonaaymbde ) 

IPK 6 G10L 



Recheiohtefteabernlchtzun MndeetprOtetoff gehorende Vef o ffaifflchungen. eowett deee i^^rdle recherchtertenQeUetefalen 



Wahrend der Intematto na ten Recherche konsuMerte dektronteohe Datenbank (Name der Datenbank und evti. vemendete Suchbegrtffe) 



C AL8 WE8EMTUCH ANQE8EHENE UNTERLAGEN 



Kategorie 0 BezeJchnung der Vefofferfttc hu rtg, eowett erfordedlch utter Angabe der k\ Betracht kommenden Tele 



Betr. Anspiuch Nr. 



A 

P,A 



JP 09 152886 A (ATR INTERPRETING TELECOM) 
10. Jun1 1997 (1997-06-10) 
Zusammenfassung 

-& US 5 839 105 A (0STEND0RF ET AL.) 
17. November 1998 (1998-11-17) 
Spalte 4 -Spalte 6, Zelle 31 

TAKAMI ET AL.: "A successive state 

splitting algorithm for efficient 

allophone modeling" 

INTERNATIONAL CONFERENCE ON ACOUSTICS, 

SPEECH AND SIGNAL PROCESSING (ICASSP) 

1992, 

Bd. 1, 23.- 26. Marz 1992, Selten 
573-576, XP000341211 

SAN FRANCISCO, CA, US ISBN: 0-7803-0532-9 
Selte 574 -Selte 575, llnke Spalte 

-/- 



1,8 
1,8 

1,8 



Weltere Vetoffentlchungen dnd der Forteetzung von FeW C zu 
entnehmen 



Slehe Anhang Patentfamle 



' Beeondere Kategorten von angegebenen Verofferitlchungen 

'A" VerWfentllchuna, de den allgemeeTen Stand der Technic defMert 
aber nlcht ate beeonders bedeuteam anzueehen let 

"E" firteree Dokurnent, daa Jedoch erst am oder nach dem Intemafionalen 

Anmeldedatum verofferrtlcht worden let 
"L" VerdffeMfchung, de gee^et 1st, elnen PrtorttatBanspruch zwelfettaft er- 
echefcien zu tassen, oder durch de daa Vefdfferttftcrwgsdatum efcier 
anderen tm Recherchenberfcht genanriten VerdffenflJchung belegt werden 
eofl oder die aue etiem anderen besonderen Qnnd angegeben let (wle 
ausgefuhrt) 

"O" Veroffentlchung, (De sfch auf el ne mOndlche Orfenbarung, 

etne Benutzung, eine Auestellung oderandere Mafinahmen bezleht 
"P" VetdneiTlDcrw g. de vor dem fcjtem atto naten A nmeldedatum, aber nach 
dem beeiiapfiiohten PriofHfitsrtatiim verflff^ Jlcht worden let 



T Spdtere Verdflentlchung, de nach dem mtemaHonaJen Anmeldedatum 
oder dem Prfoittatedatum verdflentlcht worden Istindmftder 
Anrneldung nkht kofklert, eondem nur zum VeretanoWe dee der 



BIV^JigzL^uno^^enden Prtulpe oder der Ihr zugiundellegenden 

ig von beeonderer Bedeutung; de beanaptuchte Erflndung 
fecund deeer Veroffenfltehung ntcht ate neu oder auf 
Tatl^ceft beruhend betrachtet werden 



TVi 

kartn ailetn 

emndertacher Tatl^ceft 

"Y" Veroffenfflchung von beeonderer Bedeutung; de beanspiuchte Erflndung 
karai nlcht ate auf efftidertscherTatlgkeft beruhend betrachtet 
werden, wem de Veroffentichung rnh elner oder mehreren anderen 
Verofferitlchungen deeer Kategorie In VerbMung gebracht wtrd und 
deee Verbtodung fur efcien FacTvnann nahelegendtet 

"ft" Veidftenfl U wg, de Mtfled dersetoen Patentfamlle let 



Datum dee AbecNussee der fcitemaUcnaJen Recheiche 

12. Oktober 1999 


Abeendedatum dee IntemattonaJen Recherohenberlchte 

19/10/1999 


Name und Poetanechrrft der tnternaflonalen Reoherchenbehorde 

Europfitechee Patentamt. P.B. 6818 Patenflaan 2 
NL - 2280 HV RljswQk 
Tel. (431-70) 340-2040, Tx. 31 661 epo ni, 
Fax: (431-70) 340-3018 


Bevoikriaohtlgter Bedensteter 

Lange, J 



Selte 1 von 2 



INTERNATIONALE R^ECHERCHENBERICHT 



I ^^DE 9 



99/01323 



C^FoftMtnmg) ALB WE8EMTUCH ANQE8EHEME UMTERLAQEN 



Kategorfe* Bezefcrnung der VerOffenOchung, sowett erforderlcrt inter Angabe der In Betrachtkarnmenden Tele 



Betr. Arapiuch Nr. 



LEE ET AL.: "Speaker adaptation based on 
map estimation of HMM parameters" 
INTERNATIONAL CONFERENCE ON ACOUSTICS, 
SPEECH AND SIGNAL PROCESSING (ICASSP) 
1993, 

Bd. 2, 27. - 30. April 1993, Selten 
558-561, XP000427850 

MINNEAPOLIS, NN, US ISBN: 0-7803-0946-4 
1n der Anmeldung erwahnt 
das ganze Dokument 



1,8 



FamMMI PCM8A/210 (Fotoetong von BteO 2)< Jld 1M2) 
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No 



WT/DE 99/01323 



Patent document 
cted In search report 



Pubflcatlon 



Patent famly 
member(s) 



Publication 
date 



JP 09152886 



10-06-1997 



JP 
US 



2871561 B 
5839105 A 



17-03-1999 
17-11-1998 



Form PCTVtSA/210 (patent temly annex) (Jiiy 1 982) 



P/^TT WELTORGANISATION FOR GEISTIGES EIGENTUM 

A X Internationales Btiro 

INTERNATIONALE ANMELDUNG VEROFFENTUCHT NACH DEM VERTRAG OBER DIE 

INTERNATIONALE ZUSAMMEN ARBEIT AUF DEM GEBIET DES PATENTWESENS (PCT) 



(51) Internationale Patentklassifikation 6 : 
G10L 5/06, 3/00 



A2 



(11) Internationale VerSfTentUchungsnummer: WO 99/59135 

18. November 1999 (18.11.99) 



(43) Internationales 

Verbffentlichungsdatum: 



(21) Internationales Aktenzeichen: 

(22) Internationales Anmeldedatum: 



PCT/DE99/01323 
3. Mai 1999 (03.05.99) 



(30) Prioritatsdaten: 
198 21 057.4 



11. Mai 1998 (11.05.98) 



DE 



(71) Anmelder (fur alle Bestimmungsstaaten ausser US): SIEMENS 

AKTIENGESELLSCHAFT [DE/DE]; Wittelsbacherplatz 2, 
D-80333 MOnchen (DE). 

(72) Erfinder; und 

(75) Erfinder/Anmelder (nurflir US): BUB, Udo [DE/DE]; Klar- 
weinstrasse 18, D-81247 MOnchen (DE). H<)GE, Harald 
[DE/DE]; Obertaxetweg 6B, D-82131 Gauting (DE). 

(74) Gemeinsamer Vertreter: SIEMENS AKTIENGE- 

SELLSCHAFT; Postfach 22 16 34, D-80506 MOnchen 
(DE). 



(81) Bestimmungsstaaten: US, europaisches Patent (AT, BE, CH, 
CY, DE, DK, ES, FI f FR, GB, GR, IE, IT, LU, MC, NL, 
PT, SE). 



Veroffentlicht - 

Ohne internationalen Recherchenbericht und erneut zu 
veroffentlichen nach Erhait des Berichts, 



(54) Title: ARRANGEMENT AND METHOD FOR COMPUTER RECOGNITION OF A PREDEFINED VOCABULARY IN SPOKEN 
LANGUAGE 

(54) Bezeichming: ANORDNUNG UND VERFAHREN ZUR ERKENNUNG EINES VORGEGEBENEN WORTSCHATZES IN 
GESPROCHENER SPRACHE DURCH EINEN RECHNER 

(57) Abstract 

In speech recognition, phonemes of a language are modelled, whereby each state of 
the hidden Markov model is described by means of a probability density function. The 
probability density function is divided into a first and a second probability function in 
order to recognize modifications of vocabulary. This makes it possible to compensate for 
changes in the spoken habits of a speaker, enables a new word to be added to the vocabulary 
of the speech recognition system and guarantees that the new word can be recognized and 
distinguished from the words that are already present in the speech recognition system 
with a sufficient amount of quality. 

i 

(57) Zusammenfassung 

Bei der Spracherkennung werden Phoneme, einer Sprache durch ein Hid- 
den-Markov-Modell modelliert, wobei jeder Zustand des Hidden-Markov-Modells durch 
eine Wahrscheinlichkeitsdichtefunktion beschrieben wird; Zur Spracherkennung eines 
veranderten Wortschatzes wird die Wahrscheinlichkeitsdichtefunktion in eine erste und 
eine zweite Wahrscheinlichkeitsdichtefunktion aufgespalten. Dadurch wird es mbglich, 
Verdnderungen der Sprachgewohnheit eines Sprechers zu kompensieren oder ein neues 
Wort dem Wortschatz des Spracherkenners hinzuzufQgen und dabei sicherzustellen, da8 
dieses neue Wort mit ausreichender GQte von den bereits im Spracherkenner vorhandenen 
Wcrtem unterschieden und somit erkannt wird. 
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Lesotho 


SI 


Slowenien 


AM 
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FI 


. Finnland . ; 


LT. 


Litauen ' 


SK 


Slowakei 


AT 


Osterretch 


FR 


Frankreich 


LU 


Luxemburg 


SN 


Senegal 


AU 


Australien 


GA 


Gabun 


LV 


Lettland 


sz 


Swasiland 


AZ 
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GB 


Vereinigtes KOnigreich 


MC 


Monaco 


TO 


Tschad 


BA 


Bosnien-Herzegowina 


GE 
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MD 


Republik Moldau 


TG 


Togo 
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Barbados 


GH 


Ghana 


MG 


Madagaskar 


TJ 


Tadschikistan 


BE 


Belgien 


GN 


Guinea 


MK 
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TM 


Turkmenistan 


BF 
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GR 


Griechenland 




Republik Mazedonien 


TR 


TQrkei 


BG 
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HU 
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ML 
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TT 
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BJ 
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IE 
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MN 


Mongolei 


UA 
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BR 
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IL 
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MR 


Mauretanien 


UG 
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BY 


Belarus 
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MW 
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CA 


Kanada 


IT 


Italien 


MX 


Mexiko 
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CP 
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JP 


Japan 


NE 
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uz 


Usbekistan 


CG 


Kongo 


KE 
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NL 


Niederlande 


VN 


Vietnam 


CH 


Schweiz 


KG 


Kirgisistan 


NO 


Norwegen 


YU 


Jugoslawien 


CI 


Cote d' I voire 


KP 


Demolcratische Volksrepublik 


NZ 


Neuseeland 


zw 


Zimbabwe 


CM 


Kamcrun 




Korea 


PL 


Polen 






CN 


China 
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Beschreibung 

Anordnung und Verf ahren zur Erkennung eines vorgegebenen 
Wortschatzes in gesprochener Sprache durch einen Rechner 

5 

Die Erfindung betrifft eine Anordnung und ein Verfahren zur 
Erkennung eines vorgegebenen Wortschatzes in gesprochener 
Sprache durch einen Rechner. 

10 Ein Verfahren und eine Anordnung zur Erkennung gesprochener 
Sprache sind aus [1] bekannt. Bei der Erkennung gesprochener 
Sprache werden, insbesondere bis zum Erhalt einer erkannten 
Wortfolge aus einem digitalisierten Sprachsignal, eine 
Signalanalyse und eine globale Suche, die auf ein akustisches 

15 Modell und ein linguistisches Modell der zu erkennenden 

Sprache zurtickgreif t, durchgefiihrt . Ein akustisches Modell 
basiert auf einem Phoneminventar, das anhand von Hidden- 
Markov-Modellen (HMMs) realisiert ist. Wahrend der globalen 
Suche werden ftir Merkmalsvektoren, die aus der Signalanalyse 

20 hervorgegangen sind, mit Hilfe des akustischen Modells eine 
passende Wortfolge ermittelt und diese als erkannte Wortfolge 
ausgegeben. Die zu erkennenden WOrter sind in einem 
Aussprachelexikon zusammen mit einer phonetischen Umschri ft 
abgespeichert . Der Zusammenhang ist ausftihrlich in [1] 

25 dargestel.lt. 

Zur Erlauterung der nachfolgenden Ausftihrungen wird an dieser 
Stelle kurz auf die verwendeten Begriffe eingegangen. 

30 Die Signalanalyse als Phase der computerbasierten 
Spracherkennung umfafit insbesondere eine 

Fouriertransformation des digitalisierten Sprachsignals und 
eine sich daran anschliefiende Merkmalsextraktion. Aus [1] 
geht hervor, dali die Signalanalyse alle zehn Millisekunden 
35 erfolgt. Aus sich tiberlappenden Zeitabschnitten mit einer 
Dauer von z.B. jeweils 25 Millisekunden werden anhand der 
Signalanalyse ungefahr 30 Merkmale ermittelt und zu einem 
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Merkmalsvektor zusammengef aJit • Die Komponenten des 
Merkmalsvektors beschreiben die spektrale Energieverteilung 
des zugehorigen Signalausschnitts . Um diese Energieverteilung 
zu erhalten, wird auf jedem Signalabschnitt (25ms- 
5 Zeitabschnitt) eine Fouriertransf ormation durchgef tthrt . Aus 
der Darstellung des Signals im Frequenzbereich resultieren 
die Komponenten des Merkmalsvektors. Nach der Signalanalyse 
liegt das digitalisierte Sprachsignal in Form von 
Merkmalsvektoren vor. 

10 . 

Diese Merkmalsvektoren werden der globalen Suche , einer 
weiteren Phase der Spracherkennung, zugefiihrt. Wie bereits 
erwahnt, bedient sich die globale Suche des akustischen 
Modells und ggf . des linguistischen Modells, um die Folge von 

15 Merkmalsvektoren auf Einzelteile der als Modell vorliegenden 
Sprache (Vokabular) abzubilden. Eine Sprache setzt sich aus 
einer vorgegebenen Anzahl vom Lauten, sog. Phonemen, 
zusammen, deren Gesamtheit als Phoneminventar bezeichnet 
wird. Das Vokabular wird durch Phonemfolgen modeliiert und in 

20 einem Aussprachelexikon' abgespeichert • Jedes Phonem wird 
durch mindestens ein HMM modeliiert. Mehrere HMMs ergeben 
einen stochastischen Automaten, der Zustande und 
Zustandsiibergange (Transitionen) umfafit. Mit HMMs laBt sich 
der zeitliche Ablauf des Auftretens bestimmter 

25 Merkmalsvektoren (selbst innerhalb eines Phonems) 

-modellieren. Ein entsprechendes Phonem-Modell umfafit dabei 

* ^ > eine vorg'egebene Anzahl von Zustanden, die linear 

hintereinander angeordnet sind* Ein Zustand eines HMMs stellt 
einen Teil eines Phonems (bspw. mit einer Dauer von 10ms) 

30 dar, -Jeder Zustand ist . verkntipf t mit einer 

Emissionswahrscheinlichkeit," die insbesondere. nach Gauli 
. verteilt 1st, - fur die Merkmalsvektoren und mit 
Transitionswahrscheinlichkeiten far die moglichen Ubergange. 
Mit der Emissionsverteilung wird einem Merkmalsvektor eine 

35 Wahrscheinlichkeit zugeordnet, mit der dieser Merkmalsvektor . 
in einem zugehorigen Zustand beobachtet wird. Die moglichen 
Ubergange L sind ein direkter Ubergang von einem Zustand in." 
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einen nachsten Zustand,. ein Wiederholen des Zustands und ein 
Uberspringen des Zustands. 

Eine Aneinanderreihung von HMM-Zustande mit den zugehdrigen 
5 Ubergangen tiber die Zeit wird als Trellis bezeichnet. Urn die 
akustische Wahrscheinlichkeit eines Wortes zu bestimmen, 
verwendet man insbesondere das Prinzip der dynamischen 
Programmierung: Es wird der Pfad durch die Trellis gesucht, 
der den geringsten Fehler aufweist bzw. der durch die grolite 
10 Wahrscheinlichkeit fur ein zu erkennendes Wort bestimmt ist. 

Das. Ergebnis der globalen Suche ist die Ausgabe bzw. 
Bereitstellung einer erkannten Wortfolge, die sich unter 
Berucksichtigung des akustischen Modells (Phoneminventar ) far 
15 jedes einzelne Wort und des Sprachmodells fur die Abfolge von 
Wortern ergibt. 

Aus [2] ist ein Verfahren zur Sprecheradaption, basierend auf 
einer MAP-Schatzung (MAP = maximum a posteriori) von HMM- 

20 Parametern bekannt. 

So ist es laut [2] anerkannt, daii ein sprecherabhangiges 
System zur Spracherkennung normalerweise be.ssere Ergebnisse. 
als ein sprecherunabhangiges System liefert, sofern 
ausreichend Trainingsdaten verfugbar sind, die eine 

25 Modellierung des sprecherabhangigen Systems, ermoglichen. 
Sobald jedoch die Menge der sprecherspezif ischen 
- Trainingsdaten beschrankt ist, erreicht das 

sprecherunabhangige System die besseren Resultate. Eine 
Moglichkeit zur Leistungssteigerung beider Systeme, also 

30 sowohl des sprecherabhangigen als auch des 

sprecherunabhangigen Systems zur Spracherkennung, besteht 
darin, die vorab gespeicherten Datensatze mehrerer Sprecher, 
derart zu benutzen, dafi auch eine kleine Menge Trainingsdaten 
ausreicht, um einen neuen Sprecher in ausreichender Qualitat 

35 zu modellieren. Solch ein Trainingsverf ahren wird 

Sprecheradaption genannt. In [2] wird insbesondere die 
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Sprecheradaption durch eine MAP-Schatzung der Hidden-Markov- 
Modell-Parameter durchgeftihrt . 

Generell verschlechtern sich Ergebnisse eines Verfahrens zur 
5 Erkennung gesprochener Sprache, sobald charakteristische 
Merkmale der gesprochenen Sprache von charakteristischen 
Merkmalen der Trainingsdaten abweichen. Beispiele fur 
charakteristische Merkmale sind Sprechereigenschaf ten oder 
akustische Kontexte, die sich in Form von Verschleifungen auf 
10 . die Artikulation der Phoneme auswirken. 



Der in [2] verfolgte Ansatz zur Sprecheradaption besteht 
darin, Parameterwerte der Hidden-Markov-Modelle 
"nachzuschatzen" , wobei diese nach Verarbeitung "offline", 
15 d.h. nicht zur Laufzeit des Verfahrens zur Spracherkennung, 
durchgeflihrt wird. 

Die Aufgabe der Erfindung besteht darin, eine Anordnung und 
ein Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
20 in gesprochener Sprache anzugeben, wobei insbesondere eine 
Anpassung des akustischen Modells zur Laufzeit (also 
"Online") vollzogen wird. 

Diese Aufgabe wird gemaB den Merkmalen der unabhangigen 
25 Patentanspruche gelost . 

Zur Losung der Aufgabe wird ein Verfahren zur Erkennung eines 
vorgegebenen Wortschatzes in gesprochener Sprache durch einen 
Rechner angegeben, in dem aus der gesprochenen Sprache ein 

30 Sprachsignal bestimmt wird. Das Sprachsignal wird eirifer 
Signalanalyse unterworf en, woraus Merkmalsvektoren zur 
Beschreibung des digitalisierten Sprachsignals hervorgehen. 
Eine globale Suche wird zur Abbildung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 

35 durchgeflihrt, wobei jedes Phonem der Sprache durch ein 
modif iziertes Hidden-Markov-Modell und jeder Zustand des 
modif izieirten Hidden-Markov-Modells durch eine 
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Wahrscheinlichkeitsdichtefunktion beschrieben' wird. Es 
erfolgt eine Anpassung der Wahrscheinlichkeitsdichtefunktion 
. derart, dafi sie in eine erste Wahrscheinlichkeitsdichte- 
funktion und in eine zweite Wahrscheinlichkeitsdichtefunktion 
5 aufgespalten wird. Schliefilich wird von der globalen Suche 
eine erkannte Wortfolge bereitgestellt . 

Hierbei sei angemerkt, dafi die Wahrscheinlichkeitsdichte- 
funktion, die in eine erste und in eine zweite 

10 • Wahrscheinlichkeitsdichtefunktion aufgespalten wird, eine 
Emissionsverteilung fur einen vorgegebenen Zustand des 
modif izierten Hidden-Markov-Modells darstellen kann, wobei 
diese Emissionsverteilung auch eine Oberlagerung mehrerer 
Wahrscheinlichkeitsdichtefunktionen, z.B. GauJi-Kurven 

15 (Gaufi'sche Wahrscheinlichkeitsdichteverteilungen) , enthalten 
kann . 

Eine erkannte Wortfolge kann dabei auch einzelne Lauten bzw. 
nur ein einzelnes Wort umfassen. 

20 

Sollte im Rahmen der globalen Suche eine Erkennung mit einem 
hohen Wert fur den Abstand zwischen gesprochener Sprache und 
von der globalen Suche ermittelten dazugehoriger Wortfolge 
behaftet sein, so kann die Zuordnung eines Nullwortes 
25 erfolgen, welches Nullwort anzeigt,' das die gesprochene 
Spra ; che nicht mit ausreichehder GUte erkannt wird. 

Es ist ein Vorteil der Erfindung, durch die Aufspaltung der 
Wahrscheinlichkeitsdichtefunktioh in einem durch die. 
30 Merkmalsvektoren auf gespannten Merkmalsraum neue Bereiche zu 
schaffen, die signifikante Information inBezug auf die zu 
erkennenden digitalisierten ' Sprachdaten aufweisen und damit 
eine verbesserte Erkennung zu gewahrleisten. 

35 Eine Ausgestaltung besteht darin, dafi die 

Wahrscheinlichkeitsdichtefunktion in die erste und in die 
zweite Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 
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falls der Abfall eines Entropiewertes unterhalb einer 
vorgegebenen Schranke liegt. 

Die Aufspaltung der Wahrscheinlichkeitsdichtefunktion in 
5 Abhangigkeit von einem Entropiewert erweist sich in der 
Praxis als aufierst vorteilhaft. 

Die Entropie ist allgemein ein Maft fur eine Unsicherheit bei 
einer Vorhersage eines statistischen Ereignisses. Die 
10 . Entropie ist insbesondere mathematisch bestimmbar fiir Gaufi- 
Verteilungen, wobei eine direkte logarithmische Abhangigkeit 
zwischen der Streuun'g c und der Entropie besteht. 

Eine andere Ausgestaltung der Erfindung besteht darin, daii 
15 die Wahrscheinlichkeitsdichtefunktionen, insbesondere die 
erste und die zweite Wahrscheinlichkeitsdichtefunktion 
jeweils mindestens eine GauJS-Verteilung umfassen. 

Die Wahrscheinlichkeitsdichtefunktion des Zustandes wird 
20 durch eine Summe mehrerer Gaufiverteilungen angenahert. Die 
einzelnen GauBverteilungen werden Moden genannt. Bei dem 
vorgestellten Verfahren werden die Moden insbesondere 
isoliert voneinander betrachtet. Bei jedem einzelnen 
Auf spaltvorgang wird eine Mode in zwei Moden aufgeteilt. Wenn 
25 die Wahr.scheinlichkeitsdicht.efunktion aus M Moden gebildet 
wurde , so ;wird -si.e: > nach dem Auf spaltvorgang aus M+l Moden 
gebildet. Wird eine Mode beispielsweise als eine 
Gauiiverteilung angenoimuen, so kann eine Entropie bere'chnet 
werden, wie im Ausflihrungsbeispiel gezeigt wird. 
30 . . 

. Eine Online-Adaption ist deshalb vorteilhaft, weil das. 
Verfahren nach wie vor Sprache erkennt, ohne in einer 
gesonderten Trainingsphase auf die Veranderung des 
Wortschatzes eingestellt werden zu mtissen. Es erfolgt eine 
35 Selbstadaption, die insbesondere notwendig wird durch eine 
veranderte Koartikulation der Sprecher aufgrund eines 
Hinzufiigens eines neuen Wortes. 
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Die Online-Adaption erfordert demnach keine gesonderte 
Berechnung der Wahrscheinlichkeitsdichtefunktionen, die 
wiederum fur eine Nicht-Verfiigbarkeit des Systems zur 
5 Spracherkennung verantwortlich ware, 

Eine Weiterbildung der Erfindung besteht darin, daii fur die 
erste Wahrscheinlichkeitsdichtefunktion und fiir die zweite 
Wahrscheinlichkeitsdichtef unktion gleiche 
10 Standardabweichungen bestimmt werden. Ein erster Mittelwert 
der ersten Wahrscheinlichkeitsdichtef unktion und ein zweiter 
Mittelwert der zweiten Wahrscheinlichkeitsdichtefunktion 
werden derart- bestiramt, dafi der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist. 

15 

Dies ist ein Beispiel fur die Gewichtung der aus der 
Wahrscheinlichkeitsdichtefunktion auf gespaltenen ersten und 
zweiten Wahrscheinlichkeitsdichtef unktion. Es sind auch 
beliebig andere Gewichtungen vorstellbar, die auf den 
20 jeweiligen Anwendungsf all anzupassen sind. 

SchliefJlich ist es eine Weiterbildung, dali das Verfahren 
mehrfach hintereinander durchgefllhrt wird und somit eine 
wiederholte Aufspaltung der Wahrscheinlichkeitsdichtef unktion 
25. erfolgt. 

Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Ansprtichen. 

30 Eine andere Losung der Aufgabe besteht darin, eine Anordnung 
mit einer Prozessoreinheit anzugeben, welche Prozessoreinheit 
derart eingerichtet 1st, daii folgende Schritte durchftihrbar 
sind: 

35 a) aus der gesprochenen Sprache wird ein digitalisiertes ■ 

Sprachsignal bestimmt;, 



i 
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b) auf dem digitalisierten Sprachsignal erfolgt eine 
Signalanalyse, woraus Merkmalsvektoren zur 
. Beschreibung des digitalisierten Sprachsignals 
hervorgehen; 

. c) eine globale Suche zur Abbildung der Merkmalsvektoren 
erfolgt auf eine in modellierter Form vorliegende 
Sprache, wobei Phoneme der Sprache durch ein 
modif iziertes f Hidden-Markov-Modell und jeder Zustand 
des Hidden-Markov-Modells durch eine 
Wahrscheinlichkeitsdichtefunktion beschreibbar ist; 

d) die wird Wahrscheinlichkeitsdichtefunktion durch 
Veranderung des Wortschatzes angepa&t, indem die 
Wahrscheinlichkeitsdichtefunktion in eine erste 
Wahrscheinlichkeitsdichtefunktion und in eine zweite 
Wahrscheinlichkeitsdichtefunktion aufgespalten wird; 

e) von der globalen Suche wird eine erkannte Wortfolge 
bereitgestellt . 

Diese Anordnung ist insbesondere geeignet zur DurchfUhrung 
des erf indungsgemafien Verfahrens oder einer seiner vorstehend 
erlauterten Weiterbildungen. 

Ausfilhrungsbeispiele der Erfindung werden nachfolgend anhand 
der Zeichnung dargestellt und erlautert. 

Es zeigt . _ _ * ■ 

Fig.l eine Anordnung bzw. ein Verfahren zur Erkennung 
gesprochener Sprache. 

In Figur 1 sind eine Anordnung bzw. ein Verfahren zur 
Erkennung gesprochener Sprache dargestellt. Zur Erlauterung 
der nachstehend verwendeten Begriffe sei auf die 
Beschreibungseinleitung verwiesen. 

Ein digitalisiertes Sprachsignal' 101 wird in einer 
Signalanalyse 102 einer Fouriertransf ormation 103 mit 
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anschlieftender Merkmalsextraktion 104 unterzogen. Die 
Merkmalsvektoren 105 werden an ein System zur globalen Suche 
106 ubermittelt. Die globale Suche 106 berucksichtigt sowohl 
ein akustisches Modell 107 als auch ein linguistisches Modell 
5 108 zur Bestimmung der erkannten Wortfolge 109. Aus dem 
digitalisierten Sprachsignal 101 geht somit die erkannte 
Wortfolge 109 hervor. 

In dem akustischen Modell 107 wird das Phoneminventar anhand 
10 von Hidden-Markov-Modellen nachgebildet . 

Eine Wahrscheinlichkeitsdichtef unktion eines Zustands des 
Hidden-Markov-Modells wird durch eine Auf summierung einzelner 
GauiJscher Moden angenahert. Eine Mode ist insbesondere eine 

15 Gaufiglocke. Durch Auf summierung mehrerer Moden entsteht eine 
Mischung einzelner Gauiiglocken und damit eine Modellierung 
der Emissionswahrscheinlichkeitsdichtefunktion. Anhand eines 
statistischen Kriteriums wird entschieden, ob der zu 
erkennende Wortschatz des Spracherkenners durch das 

20 Hinzufugen weiterer Moden verbessert modelliert werden kann* 
Im Fall der vorliegenden Erfindung wird dies insbesondere bei 
Erfullung des statistischen Kriteriums durch inkrementelles 
Aufspalten bereits existierender Moden erreicht. 

25 Die Entropie ist : ..de.f ln.iert. durch 



00 




. (1) 



30 



unter der Annahme, daii p(x) eine GauJi-Verteilung rait einer 
diagonalen Kovarianzmatrix 1st, also 



p(x) = jv(\x, o n ) = 



1 1 



• exp 



1 v ( x n " ^n) 



7(2^" n n ^ 



n 




(2) 
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erhalt man 

N 

Hp = X log2 Vine a n (3) , 

n = l 

5 wobei 

Vi den Erwartungswert, 

a n die Streuung fiir jede Komponente n und 
N die Dimension des Merkmalsraums 
bezeichnen. 



10 



15 



20 



25 



Die wahre Verteilung p(x) ist nicht bekannt. Sie wird 

insbesondere als Gauliverteilung angenommen. Im akustischen 
Modell wird die Wahrscheinlichkeit p(x) anhand von 

Stichproben angenahert mit 



p(x) = jv({i f a n ), 



wobei 



- 1 L 



L l = l 



einen. Mittelwert Uber L Bedbactiturigfen ' darsteilt . Die 
. kdrrespondi'erende En'trppie als Funktion von ji ist gegeben 

durch 

00 

Hp(jl) = - Jp(x)log2 p(x) dx (4) , 

-00 t 



was schlieJilich zu 

n=l °n 



30 Hp(a) = H p + £ ^" / n; log 2 41 (5) 
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f iihrt . 

Der Erwartungswert E|(|i n - An) 2 } betragt ~ a n' so daii der 
Erwartungswert von Hp(\x} gegeben ist als 

5 

H£ = e{h^(A)) = Hp. + ^ log 2 (6) . 

Fur die Entropie ein^r Mode, die mit einer GauiJ-Verteilung 
mit einer diagonalen Kovarianzmatrix bestimmt wird, ergibt 
10 sich also Gleichung (3) . Der ProzeiJ wird nun mit einer 

Schatzung angenahert. Die Entropie des angenaherten Prozesses 
ergibt sich zu 

N r- 

H = H + - log2 Ve (7) . 

L 

15 

Je grdiier die Anzahl L der Stichproben ist, um so besser wird 
die Abschatzung und um so mehr nahert sich die geschatzte 
Entropie H der wahren Entropie H an, 

20 Es soil nun 

p(x) = virfc, a n ) ' (8) 

die auf zuteilende Mode sein. Ferner wird angenommen, daii die 
25 zwei Gaufi-Verteilungen, die durch den Auf teilungsprozefi 
entstehen, identische Standardabweichungen a s haben und 
gleich gewichtet sind. Dies ergibt 

' P S (*) = \ JV(M> o s ) + i jrffil, a s ) (9) . 



30 



Unter der Annahme, daft- \i\ « ^ , ~ M-2 und daB ^1 
ausreichend weit entfernt von \i2 ist, ergibt sich die 
Entropie der auf gespaltenen Wahrscheinlichkeitsdichtefunktion 
jeweils zu 
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15 



H s = 1 - X log2 V2rce a| + \\ log2 Ve — + logo Ve — 
n = l ^ Ll L2> ^ 



(10) . 



Als Auf teilungskriterium wird eine Verminderung der Entropie 
5 durch den Auf spaltungsvorgang gefordert, also 

H - H S > C (11) , 

wobei C (mit C > 0) eine Konstante ist, die den gewiinschten 
10 Abfall der Entropie darstellt. Wird 

\ = ^1 = L 2 (12) 



angenoimtien, so ergibt sich' hierdurch 

Z N a n r~ N 

loQ2 > lo 92 Ve - + 1 + C (13) . 

n = l a n L 

Eine Moglichkeit, die Lage der Mittelpunkte der beiden neuen 
Moden zu bestimmen, wird im folgenden aufgezeigt. Eine 
20 bevorzugte Vorgabe besteht darin, dafi Kriterium zum 

Aufspalten zu erfiillen. In dem angefuhrten Beispiel wird jif 
der Wert von £ zugewiesen. jil erhalt eine Maximum- 

Likelihood-Schatzung derjenigen Beobachtungen/ die im 
Viterbi-Pfad auf ji abgebildet werden. Diese Bestimmungen 

25 zeigen lediglich eine Moglichkeit auf, ohne daB eine 
Einschrankung des vorgestellten Verfahrens auf diese . 
Moglichkeit beabsichtigt ist. 

Die folgenden Schritte der Beispielanwendung zeigen die 
30 Einbettung in eine Anordnung zur Spracherkennung . bzw. ein 
Verfahren zur Spracherkennung. 

Schritt 1: Initialisierung: \xf = \x, jH^ = 
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Schritt 2: Erkennen der Aufierung , Analysieren des 
Viterbi-Pfads; 

5 Schritt 3: Fur jeden Zustand und fur jede Mode des 

Viterbi-Pfades: 

Schritt 3.1: Bestimme o n ; 

10 Schritt 3.2: Bestimme L2 auf Grundlage derjenigen 

Beobachtungen, die naher an £2 a ^ s an Si 
liegen und setze L = L2 • Falls flf und ff 
identisch sind, so ordne die zweite 
Halfte der Merkmalsvektoren jlf und die 

15 erste Halfte der Merkmalsvektoren \xf zu - 

Schritt 3.3: Bestimme entsprechend auf Grundlage 
der L2~Aufierungen; 

20 Schritt 3.4: Ermittle jlf neu auf Grundlage des , 

Mittelwerts derjenigen Beobachtungen, die 
naher an jlf als an jlf liegen; 

Schritt 3.;5: Werte Auf teilungskriterium nach 
25 Gleichung (13) aus; 

, Schritt 3.6: Falls Auf teilungskriterium nach 

Gleichung (13) positiv ist, generiere 
zwei neue Moden mit den Mittelpunkten \xf 
30 und ^l'- 

Schritt 4: Gehe zu Schritt 2.. . - 
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Im Rahmen dieses Dokuments wurden folgende Verof f entlichungen 
zitiert : 

[1] N. Haberland et al.: "Sprachunterricht - Wie funktioniert 
die computerbasierte Spracherkennung?" , c't - Magazin fur 
5 Computertechnik - 5/1998, Heinz Heise Verlag, Hannover, 

1998, Seiten 120 bis 125. 

[2] C. H. Lee et al . : "Speaker Adaptation Based on MAP 
Estimation of HMM Parameters"; Proc. IEEE Intern. 
Conference on Acoustics, Speech and Signal Processing, 
10 Seiten 11-588 bis 11-561. 
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Patent anspruche 

1. Verfahren zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprache durch einen Rechner, 
5 a) bei dem aus ddr gesprochenen Sprache ein 

digitalisiertes Sprachsignal bestimmt wird, 

b) bei dem auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchgefiihrt wird, woraus 
Merkmalsvektoren zur Beschreibung des digitalisierten 

10 Sprachsignals hervorgehen, 

c) bei dem eine globale Suche zur Abbildung der 
Merkmalsvektoren auf eine in modellierter Form 
vorliegende Sprache durchgefiihrt wird, wobei Phoneme 
der Sprache durch ein modif iziertes Hidden-Markov- 

15 Model 1 und jeder Zustand des Hidden-Markov-Model Is 

durch eine Wahrscheinlichkeitsdichtefunktion 
beschrieben wird, 

d) bei dem die Wahrscheinlichkeitsdichtef unktion durch 
Veranderung des Wortschatzes angepaiit wird, indem die 

20 Wahrscheinlichkeitsdichtefunktion in eine erste/ 

Wahrscheinlichkeitsdichtefunktion und in eine zweite 
Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 

e) bei dem von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 

•2. ' Verfahren nach* Anspruch. 1>; 

y bei dem die Wahrscheinlichkeitsdichtefunktion in die 
erste und in die zweite Wahrscheinlichkeitsdichtefunktion 
aufgespalten wird, falls der Abfall eines Entropiewertes 
30 unterhalb einer vorgegebenen Schranke liegt. 

3. Verfahren nach Anspruch 1 oder 2, 

bei dem die Veranderung des Wortschatzes zur Laufzeit des 
Verfahrens durchgefiihrt wird. 



35 



Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Veranderung des Wortschatzes bedingt ist 
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durch Hinzufugen eines Wortes zum Wortschatz oder bei dem 
sich Aussprachegewohnheiten eines Sprechers andern. 

5. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die erste Wahrscheinlichkeitsdichtefunktion und 
die zweite Wahrscheinlichkeitsdichtefunktion jeweils 
mindestens eine GauJSverteilung umfassen. 

6. Verfahren nach Anspruch 5, 

bei dem fUr die erste . Wahrscheinlichkeitsdichtefunktion 
und fur die zweite Wahrscheinlichkeitsdichtefunktion 
gleiche Standardabweichungen, ein erster Mittelwert der 
ersten Wahrscheinlichkeitsdichte.funktion und ein 'zweiter 
Mittelwert der zweiten Wahrscheinlichkeitsdichtef unktion 
ermittelt werden, wobei der erste Mittelwert von dem 
zweiten Mittelwert verschieden ist. 

7. Verfahren nach einem der vorhergehenden AnsprUche, 
bei dem die Aufspaltung mehrfach durchgeftihrt wird. 

8. Anordnung zur Erkennung eines vorgegebenen Wortschatzes 
in gesprochener Sprach'e mit einer Prozessoreinheit, die 
derart eingerichtet ist, ! dali 

a) aus der gesprochenen Sprache ein digitalisiertes. 
Sprachsignal bestimmbar ist,. 

b) auf dem digitalisierten Sprachsignal eine 
Signalanalyse durchfiihrbar ist, woraus 
Merkmalsvektoren zur Beschreibung des digitalisierten 
Sprachsignal? hervorgehen, 

c) eine globale Suche zur Abb il dung der Merkmalsvektoren 
auf eine in modellierter Form vorliegende Sprache 
erfolgt, wobei Phoneme der Sprache durch ein 
modifiziertes Hidden-Markov-Modell und jeder Zustand 
des Hidden-Markov-Modells durch eine 
Wahrscheinlichkeitsdichtefunktion beschreibbar ist, 
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d) die Wahrscheinlichkeitsdichtefunktion durch 
Veranderung des Wortschatzes angepaiit wird, indem die 
Wahrscheinlichkeitsdichtefunktion in eine erste 
Wahrscheinlichkeitsdichtefunktion und in eine zweite 
Wahrscheinlichkeitsdichtefunktion aufgespalten wird, 

e) von der globalen Suche eine erkannte Wortfolge 
bereitgestellt wird. 
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